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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著 
作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 让， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 
日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 遂 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw- Hill, Elsevier, MIT, John Wiley & Sons ，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup， 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 学 
习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,， “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐 
渐 深 化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ，www. hzbook. com 一 
电子 邮件 ，hzjsj@ hzbook. com 三 
联系 电话 : (010) 88379604 nn 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 于 章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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由 于 单 核 的 性 能 发 展 遇 到 瓶颈 ， 因 此 并 行 计 算 机 和 多 核 体系 结 构 的 重要 性 越 来 越 显 
著 。 本 书 以 通俗 易 懂 的 方式 描绘 了 错综复杂 的 并 行 体系 结构 ， 这 对 学 术 研 究 人 员 和 工程 师 
都 十 分 有 用 。， 

Shubu Mukherjee ，Cavium 公司 


这 本 书 不 仅 可 以 帮助 你 清晰 理解 并 行 系统 的 原理 ， 而 且 对 于 并 行 系统 设计 者 来 说 也 是 
不 可 多 得 的 好 书 。 
陈云 震 ， 中 国 科学 院 计 算 技 术 研究 所 


未 来 的 电子 系统 都 会 由 内 置 微 处 理 器 组 成 ， 因 此 对 体系 结构 的 理解 至 关 重 要 。 从 处 理 
器 的 基本 知识 到 内 存 结构 再 到 片上 多 处 理 器 ， 本 书 系 统 介绍 了 计算 机 体系 结构 的 基本 问 
题 ， 通 篇 流畅 ， 易 于 理解 ， 是 一 本 出 色 的 工具 书 。 
Uri Weiser， 以 色 列 理工 学 院 


这 本 书 对 于 理解 基本 的 片上 技术 、 互 连 网 络 的 限制 以 及 它们 对 于 计算 机 体系 结构 设计 
的 影响 很 有 帮助 。 所 有 计算 机 系统 相关 领域 的 学 生 和 开发 人 员 都 应 该 首先 掌握 平台 无 关 的 
单 核 和 多 核 基 本 原理 ,正如 本 书 所 呈现 的 一 样 。 
Mateo Valero， 巴 塞 罗 那 超 算 中 心 


在 过 去 的 几 年 里 ， 处 理 器 体系 结构 发 生 了 由 单 核 向 多 核 的 重大 转变 ， 这 个 领域 中 需要 
一 本 易 懂 且 与 时 俱 进 的 书 。 本 书 既 可 以 作为 了 解 多 核 和 并 行 体系 结构 的 人 门 书 ， 也 可 以 作 
为 工程 师 和 研究 人 员 的 参考 书 。 
Olivier Temam， 法 国 INRIA 
高 级 计算 机 体系 结构 领域 需要 一 本 综合 性 强 、 权 威 性 高 但 又 浅显 易 懂 的 教科 书 和 参考 
书 ， 本 书 满足 了 这 一 需求 。 威 斯 康 星 大 学 三 门 关 于 计算 机 体系 结构 的 课程 所 讲授 的 所 有 关 
键 原理 和 概念 ， 在 本 书 中 都 得 以 呈现 ， 并 且 组 织 良 好 、 深 思 熟 虑 、 易 于 教学 ， 并 没有 用 上 星 
涩 抽象 的 技巧 以 及 大 量 的 量化 数据 使 得 读者 手足 无 措 。 特 别 是 第 8 章 讲述 的 片上 多 处 理 器 ， 
的 内 容 紧 跟 工业 发 展 前 沿 ， 最 后 一 章 的 量化 评估 更 是 点 睛 之 笔 ， 这 些 是 本 书 能 从 同类 书 中 
脱颖而出 的 关键 。 
Mikko Lipasti， 威 斯 康 星 大 学 麦迪 进 分 校 


本 书 对 于 计算 机 系统 的 各 个 方面 都 有 深刻 的 见解 ， 是 本 领域 中 一 本 综合 性 强 、 系 统 
性 完善 并 且 紧 跟 时 代 发 展 的 书 。 本 书 经 过 精心 编排 ， 保 证 每 章 都 独立 、 完 备 ， 使 读者 无 
需 阅读 整 本 书 就 可 以 理解 每 章 的 主题 。 本 书 内 容 丰富 、 连 贯 、 清 晰 ， 书 中 的 问题 也 利于 
培养 创造 性 思维 。 我 推荐 此 书 作 为 所 有 计算 机 设计 领域 的 研究 生 、 青 年 研究 者 和 工程 师 


的 必 读 书 。 
张立新 ， 中 国 科 学 院 计 算 技术 研究 所 


并 行 体系 结构 是 计算 机 系统 获得 高 性 能 和 高 效率 的 关键 。 本 书 从 多 个 层面 讲述 了 并 行 
体系 结构 的 知识 ， 包 括 从 简单 的 晶体 管 到 完全 成 熟 的 CMP 等 内 容 ， 学 习 本 书 的 过 程 将 是 
一 段 难忘 的 旅程 。 


Ronny Ronen，Intel 公司 


多 核 芯片 使 得 并 行 体系 结构 无 处 不 在 ， 也 使 得 对 并 行 体系 结构 的 理解 变 得 非常 必要 。 
本 书 系统 地 讲解 了 并 行 系统 体系 结构 ， 并 以 简洁 的 方式 介绍 了 cache 一 致 性 和 内 存 一 致 性 
的 基本 原理 ， 是 用 于 研究 生 一 学 期 教学 的 理想 教科 书 。 
Lawrence Rauchwerger， 得 克 萨 斯 农工 大 学 


本 书 是 现在 并 行 体系 结构 方向 最 好 的 一 本 书 ， 我 计划 在 课 上 使 用 这 本 书 ， 它 以 清晰 明 
了 的 方式 讲述 了 并 行 计算 最 前 沿 的 知识 。 
Trevor Mudge， 密 吹 根 大 学 


“并 行 ”以 不 同 的 形式 存在 于 多 个 层次 ， 是 未 来 计算 机 系统 必 不 可 少 的 ， 也 是 新 一 代 
计算 机 科学 家 和 工程 师 必 须 掌握 的 。 为 了 充分 理解 其 中 成 百 上 千 个 不 同 选 项 之 间 的 复杂 关 
系 ， 我 们 必须 对 其 进行 总 结 、 排 序 和 综合 ， 这 也 正 是 本 书 所 完成 的 杰出 工作 。 我 尤其 想 强 
调 的 是 ， 三 位 作者 用 极其 清晰 的 方式 解释 了 一 致 性 、 同 步 和 内 存 一 致 性 等 概念 。 

Manolis Katevenis ， 和 希腊 克 里 特 大 学 


本 书 由 业界 顶尖 专家 所 著 ， 对 并 行 计算 机 进行 了 全 面 讲解 。 在 技术 上 严谨 完备 ， 同 时 
也 浅显 易 懂 ， 还 包括 一 些 容易 忽略 但 很 重要 的 主题 ， 如 可 靠 性 、 功 耗 和 模拟 。 


Norm Jouppi， 惠 普 公 司 


本 书 汲取 了 传统 计算 机 体系 结构 的 精华 ， 也 包括 多 核 和 并 行 系统 方面 的 基本 原理 。 本 
领域 吸 需 这 样 一 本 高 质量 的 书 ， 作 者 很 好 地 对 主题 进行 了 组 织 和 改进 ， 为 下 一 代 计 算 机 架 
构 师 提供 了 设计 多 核 和 众 核 系统 所 需 的 基本 原理 。 

David Kaeli， 美 国 东 北大 学 

本 书 是 该 领域 期 盼 已 久 的 一 本 出 色 的 教学 用 书 ， 它 将 是 计算 机 体系 结构 专业 的 学 生 和 
教师 不 可 或 缺 的 资源 。 

Josep Torrellas ， 伊 利 诺 伊 大 学 
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在 21 世纪 初期 ， 由 于 单 核 处 理 器 的 性 能 提升 越 来 越 困 难 ， 因 此 基于 多 核 处 理 器 的 并 
行 体 系 结构 获得 了 快速 发 展 ， 计 算 机 体系 结构 的 研究 重心 也 开始 转向 并 行 体系 结构 ， 这 给 
计算 机 体系 结构 的 课程 设置 和 教材 编写 都 带 来 了 很 大 挑战 。 

我 们 从 2005 年 开始 从 事 多 核 和 众 核 体系 结构 的 研究 ， 一 直 在 寻找 一 本 系统 讲解 并 行 
体系 结构 的 优秀 人 门 教材 和 参考 书 ， 本 书 的 出 现 令 我 们 眼前 一 亮 ， 这 正 是 我 们 一 直 想 要 的 
那 本 教材 。 

本 书 的 作者 是 并 行 计算 机 体系 结构 领域 的 知名 学 者 ， 教材 内 容 的 权威 性 无 需 多 言 。 在 
前 言 中 ， 作 者 也 给 出 了 非常 详细 的 章节 纲要 及 学 习 指 导 ， 建 议 读者 参考 。 此 外 ， 本 书 之 所 
以 是 一 本 极其 出 色 的 教材 ， 我 们 认为 原因 还 在 于 其 具有 以 下 特色 : 

内 容 完 备 且 吻 懂 。 本 书 在 重点 介绍 最 新 的 并 行 计算 机 体系 结构 的 同时 ， 对 传统 单 核 体 
系 结构 中 的 基本 概念 和 原理 也 进行 了 简要 介绍 ， 并 且 讲 解 方式 浅显 易 懂 ， 即 使 计算 机 体系 
结构 知识 背景 比较 薄弱 的 读者 也 可 以 较 快 入 门 。 

每 一 章 自 成 体系 ， 内 容 相对 独立 且 完 备 。 研 究 人 员 和 工程 人 员 可 以 有 针对 性 地 快速 切 
人 相关 章节 进行 学 习 和 查阅 ， 教 师 在 教学 环节 中 也 可 以 根据 学 生 实际 情况 选择 相关 章节 施 
教 ， 比 如 难度 较 大 的 第 7 章 更 适合 研究 生 课 程 。 

针对 体系 结构 量化 评估 工具 编写 了 专门 的 章节 。 模 拟 器 是 计算 机 体系 结构 研究 和 教学 
中 极其 重要 的 工具 ， 然 而 现 有 的 体系 结构 教材 中 往往 忽略 了 对 这 类 工具 的 介绍 。 本 书 在 第 
9 章 中 对 量化 评估 工具 进行 了 系统 全 面 的 阐述 ， 这 对 体系 结构 领域 的 初学 者 来 讲 是 非常 有 
价值 的 。 

本 书 的 翻译 工作 由 范 东 害 、 叶 筑 春 、 王 达 共 同 协 作 完成 。 在 翻译 过 程 中 ,我们 也 修正 
了 原 书 中 的 一 些小 错误 。 不 过 由 于 我 们 的 水 平和 精力 有 限 ， 可 能 会 引入 新 的 错误 ， 县 请 大 
家 不 音 赐教 。 

本 书 的 完成 得 益 于 中 科 院 计算 所 许多 老师 和 同学 的 无 私 支 持 。 囊 心 感谢 张 志 敏 研究 员 
对 译 稿 部 分 章节 的 审 校 ， 感 谢 李 文 明 、 吴 萌 、 向 陶然 、 严 明 玉 、 李 戈 、 张 伍 召 、 张 承 龙 等 
对 译 稿 的 贡献 。 另 外 ， 本 书 的 出 版 还 得 到 了 机 械 工业 出 版 社 的 大 力 帮助 ， 在 此 也 对 出 版 社 
各 位 同仁 在 翻译 和 审 校 等 环节 的 辛勤 付出 表示 感谢 。 
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在 飞速 发 展 的 技术 驱动 下 ， 计 算 机 体系 结构 成 为 一 个 快速 发 展 的 领域 。 自 20 世纪 90 
年 代 中 期 以 来 ， 计 算 系统 的 速度 和 可 靠 性 显著 增强 ， 这 主要 得 益 于 技术 的 发 展 、 更 快 的 主 
频 和 更 深 的 流水 线 。 这 些 改进 将 高 性 能 计算 机 带 给 大 众 ， 对 社会 产生 了 深远 影响 ,促进 了 
网 络 创新 和 人 类 活动 中 生产 力 的 大 幅 提 升 。 我 们 所 处 的 信息 革命 如 同 18 世纪 的 工业 革命 ， 
没有 人 会 否认 这 次 革命 得 益 于 技术 的 发 展 和 微 处 理 器 体系 结构 的 发 展 。 

但 是 ， 这 样 快速 的 发 展 在 未 来 可 能 无 法 维持 下 去 ， 流 水 线 深度 已 经 达到 可 用 的 极限 ， 
由 于 功 耗 限制 ， 主 频 也 无 法 大 幅 突破 。 随 着 技术 的 发 展 以 及 片上 资源 的 变 少 ， 可 靠 性 、 复 
杂 性 和 功 耗 成 为 计算 机 设计 考虑 的 首要 问题 ， 而 不 再 是 传统 上 考虑 的 成 本 、 面 积 和 性 能 。 
这 些 趋 势 促进 了 并 行 处 理 和 并 行 体系 结构 的 发 展 ， 因 为 这 是 解决 当前 和 未 来 可 能 面临 的 体 
系 结构 问题 的 一 条 新 的 甚至 可 能 是 唯一 的 途径 。 人 们 普遍 认为 ， 我 们 需要 利用 并 行 处 理 才 
能 使 计算 机 领域 呈现 一 片 新 的 景象 ， 而 这 个 巨大 的 改变 会 产生 深远 的 社会 影响 。 因 此 , 无 
论 是 工业 界 还 是 学 术 界 ， 对 并 行 体 系 结构 的 兴趣 都 已 从 工程 上 的 好 奇 转换 为 实在 的 任务 。 

随 着 时 间 的 流逝 ， 各 层次 的 并 行 化 已 经 成 为 现代 计算 机 系统 发 展 的 瓶颈 。 多 处 理 器 结 
构 通过 连接 多 个 处 理 器 提供 了 可 扩展 的 性 能 表现 ， 并 已 在 高 端 系统 领域 称霸 数 十 载 。 多 处 
理 器 开发 线程 级 并 行 (TLP) ， 人 允许 大 型 应 用 拥有 很 多 线程 ， 如 计算 机 图 形 、 科 学 /工程 计 
算 、 数 据 库 管 理 以 及 通信 服务 。 随 着 体系 结构 和 编译 器 技术 的 发 展 ， 微 体系 结构 则 开发 指 
令 级 并 行 (ILP) ， 并 且 获 得 了 良好 的 性 能 表现 。 内 存 系统 结构 为 了 跟 上 指令 吞吐 量 的 需 
求 ， 通 过 允许 同时 访问 大 量 数据 并 保证 执行 的 正确 性 而 获得 了 快速 发 展 。 互 连 和 相关 的 协 
议 也 不 断 改 进 ， 可 以 有 效 连 接 成 百 上 千 个 处 理 器 以 及 主 频 为 几 GHz 的 芯片 。 最 近 ， 微 处 理 
器 的 体系 结构 集成 了 系统 级 并 行 结构 的 范例 ， 如 向 量 处 理 和 多 处 理 器 。 在 片上 多 处 理 器 时 
代 ， 每 个 微 处 理 器 都 有 多 个 核 或 CPU， 每 个 核 可 以 并 发 执行 多 个 线程 。 

并 行 体系 结构 很 难 设 计 也 很 难 编程 ， 我 们 必须 理解 并 行 体系 结构 带 来 的 问题 。 本 书 针 
对 最 新 的 指令 级 并 行 和 线程 级 并 行 技术 给 出 了 清晰 易 懂 的 讲解 ， 此 外 ， 还 将 可 靠 性 和 功 耗 
作为 设计 目标 进行 讲解 。 先 前 计算 机 体系 结构 方面 的 教材 主要 将 性 能 作为 设计 考虑 的 核心 
问题 。 然 而 ， 现 在 尽管 性 能 依旧 是 设计 中 的 一 个 主要 问题 ， 但 是 复杂 性 、 功 耗 和 可 靠 性 等 
其 他 问题 也 成 为 很 重要 的 设计 因素 ， 这 本 关于 并 行 计 算 机 体系 结构 的 新 书 将 会 讲解 这 些 
内 容 。 \ 
本 书 的 基本 目的 是 解释 并 行 体系 结构 如 何 工作 以 及 分 析 当 今 并 行 体系 结构 的 正确 设 
计 ， 尤 其 是 在 技术 受 限 的 情况 下 。 我 们 一 般 不 会 给 出 性 能 数据 ， 并 且 尽 力 回 避 系 统 的 具体 
细节 描述 。 我 们 鼓励 读者 阅读 发 布 在 相关 会 议 或 期 刊 上 的 资料 ， 详 细 的 参考 书目 和 历史 发 
展 回 顾 将 会 发 布 在 网 上 。 这 会 留 下 更 多 空间 来 讲解 设计 的 基本 问题 ， 同 时 鼓励 学 生 思考 、 
创新 、 实 现 自己 的 设计 。 为 了 达到 实践 和 创新 的 层次 ,全 面 了 解 现存 的 设计 和 实际 问题 以 
及 限制 因素 是 必需 的 过 程 。 本 书 利用 丰富 的 例子 来 解释 概念 ， 并 且 激 发 读者 自己 思考 。 此 
外 ， 本 书 还 用 两 章 (第 8 章 和 第 9 章 ) 的 篇 幅 描述 了 一 些 工 业界 和 学 术 界 使 用 的 系统 和 
工具 。 

习题 是 学 习 的 重要 部 分 ， 每 章 之 后 的 习题 都 采用 问答 题 形式 ， 有 些 很 长 很 难 的 题目 被 


分 成 了 多 个 子 问 题 。 习 题 的 主要 目的 是 给 学 生 创 造 机 会 以 对 每 章 的 概念 有 深刻 的 理解 ， 并 
且 培 养 学 生 的 抽象 思维 能 力 。 

本 书 适合 对 计算 机 体系 结构 感 兴趣 的 计算 机 、 电 子 工程 和 计算 机 科学 专业 的 高 年 级 本 
科 生 以 及 研究 生 阅读 ， 也 适合 计算 机 行业 中 的 工程 师 参 考 。 由 于 本 书 涵盖 了 从 微 处 理 器 到 
多 处 理 器 的 大 量 知识 ， 既 包括 基本 内 容 也 包含 一 些 前 沿 的 研究 点 ， 因 此 在 教学 时 ， 可 以 通 
过 选择 不 同 的 章节 来 适应 不 同 的 难度 级 别 。 学 生 可 以 学 到 硬件 结构 和 组 成 多 处 理 器 的 各 个 
部 分 ， 以 及 技术 发 展 趋势 对 于 体系 结构 的 影响 ， 还 有 与 性 能 、 功 耗 、 可 靠 性 和 功能 正确 性 
相关 的 设计 问题 等 。 本 书 可 以 用 于 研究 生 的 基础 课程 ， 也 可 以 用 于 接 下 来 的 高 阶 研究 课 
程 。 本 书 的 预 修 课程 是 计算 机 体系 结构 及 组 成 ， 涵 盖 指 伶 集 和 简单 流水 线 处 理 器 体系 结构 
等 内 容 。 例 如 五 级 流水 线 及 其 控制 相关 的 知识 ， 包 括 前 递 、 停 顿 和 刷新 等 问题 ， 这 些 可 以 
帮助 学 生理 解 微 处 理 器 章节 中 更 复杂 的 硬件 问题 。 为 了 体现 完整 性 ， 本 书 也 包括 了 基本 的 
指令 集 、 流 水 线 和 存储 等 相关 概念 。 由 于 现代 微 体 系 结构 会 影响 多 处 理 器 的 特征 ， 因 此 了 
解 其 工作 原理 是 必需 的 ， 此 外 还 需要 一 定 的 编程 知识 。 


内 容 纲要 


本 书 整体 内 容 完备 ， 同 时 我 们 也 尽力 保证 每 一 章 都 是 独立 且 完备 的 ， 这 可 能 会 导致 一 
些 重复 。 本 书 共 9 章 。 第 1 章 给 出 了 计算 机 体系 结构 领域 的 基本 观点 ， 概 述 处 理 器 、 内 
存 、 互 连 网 络 、 性 能 问题 (主要 是 如 何 评判 计算 机 系统 ) 以 及 讨论 技术 发 展 对 未 来 体系 结 
构 的 影响 。 

对 工艺 实现 细节 的 理解 也 是 非常 重要 的 ， 因 为 很 多 体系 结构 的 设计 决策 都 受 底层 工艺 
的 影响 。 因 此 在 第 2 章 中 ,我 们 对 CMOS 进行 回顾 并 探讨 相关 问题 。 有 VLSI 设计 背景 的 
学 生 可 以 略 过 某 些 讲解 。 这 一 章 主 要 是 针对 计算 机 科学 专业 的 学 生 ， 他 们 可 能 对 电子 工程 
和 CMOS 技术 只 有 粗略 的 了 解 。 这 部 分 知识 对 理解 本 书 其 他 部 分 没有 影响 , ,但 是 可 以 帮助 
学 生理 解 为 什么 如 今 的 体系 结构 会 是 这 样 ， 并 了 解 一 些 设计 决策 的 原因 。 这 一 章 同 其 他 章 
节 的 明显 区 别 在 于 只 介绍 工艺 相关 的 知识 。 

第 3、4 和 6 章 讲述 了 并 行 系统 设计 的 几 个 基本 方面 : 处 理 器 、 存 储 和 互连网 络 。 第 3 
章 讲述 微 体系 结构 ， 对 指令 集 和 基本 的 机 器 结构 (如 五 级 流水 线 ) 进行 了 概括 介绍 ， 并 在 
这 一 过 程 中 给 出 了 本 书 其 他 部 分 用 到 的 指令 集 和 基本 ISA 原理 。 这 一 章 重点 强调 异常 以 及 
异常 处 理 方法 ， 因 为 异常 对 于 开发 微 体系 结构 中 的 并 行 性 有 很 大 影响 。 有 体系 结构 背景 的 
学 生 可 以 略 过 该 章 的 大 部 分 内 容 。 该 章 主要 介绍 通过 各 种 软 硬 件 方法 来 开发 指令 级 并 行 。 
首先 ， 考 虑 静态 调度 处 理 器 (包括 超标 量 处 理 器 ， 它 是 五 级 流水 线 的 扩展 ) 中 的 设计 问 
题 。 由 于 没有 哪 种 机 制 可 以 进一步 优化 静态 调度 的 指令 并 开发 ILP， 因 此 编译 屁 技 术 就 显 
得 十 分 重要 。 而 动态 乱 序 (000) 执行 处 理 器 则 可 以 在 几 百 条 指令 的 执行 窗口 内 重新 动态 
- 调度 (编译 后 ) 指令 。 在 第 3 章 ; 我 们 会 一 步 步 讲解 0o0 处 理 器 的 发 展 ， 从 Tomasulo 算 
法 开始 一 直到 可 以 推测 调度 的 推测 执行 处 理 器 ， 这 也 是 目前 最 先进 的 0o0 处 理 器 。 乱 序 执 
行 处 理 器 是 处 理 器 体系 结构 设计 的 一 个 极端 ,由 于 其 支持 动态 调度 ， 因 而 随 着 并 行 指令 数 
的 增加 会 带 来 复杂 性 和 功 耗 等 问题 。 并 行 微 体系 结构 设计 的 另 一 个 极端 是 超 长 指令 字 
(VLIW) 结构 。 在 这 种 结构 中 ， 在 编译 阶段 就 决定 了 所 有 的 动作 (包括 什么 时 候 取 指 、 译 
码 和 开始 执行 )， 这 极 大 地 降低 了 硬件 复杂 性 和 功 耗 。 而 实际 处 理 器 设计 可 以 在 两 个 极端 
之 间 进 行 折 中 ， 显 式 并 行 指令 计算 (Explicity Parallel Instruction Computing，EPIC) 就 是 这 
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样 的 一 个 尝试 。 最 后 ， 处 理 器 还 通过 向 量 微 体 系 结构 来 开发 细 粒 度 并 行 ， 向 量 处 理 在 性 能 
和 功 耗 方面 都 很 有 效 ， 并 且 广 泛 用 于 多 媒体 和 信和 号 处 理应 用 中 。 

第 4 章 讲解 存储 层次 结构 在 硬件 层 的 特点 。 如 今 ， 需 要 多 层次 并 发 存储 结构 来 为 并 行 
微 体系 结构 提供 足够 的 指令 和 数据 。 这 包括 非 阻塞 cache 设计 以 及 软 硬 件 预 取 策略 。 这 些 
方法 必须 保证 内 存 行为 的 正确 性 。 另 一 个 理解 并 行 体 系 结构 的 重要 因素 是 虚拟 存储 系统 。 
正 是 因为 有 了 虚 存 ， 现 代 体 系 结构 必须 能 处 理 精确 异常 ， 多 处 理 器 必须 采取 相关 的 机 制 来 
保证 每 个 处 理 器 虚 存 的 一 致 性 (在 第 5 章 中 介绍 ) 。 

第 6 章 主要 讲解 互连网 络 问 题 。 互 连 网 络 连接 系统 部 件 ( 系统 区 域 网 络 ，SAN) 或 者 
片上 资源 (片上 网 络 ，OCN)。 由 于 并 行 体系 结构 性 能 的 提高 需要 允许 多 个 部 件 的 并 行 访 
问 ， 因 此 互连网 络 的 设计 对 性 能 和 功 耗 都 极其 重要 ,设计 空间 很 大 。 第 6 章 提供 了 互连网 
络 设计 的 完整 介绍 ， 包 括 性 能 模型 、 交 换 策略 、 网 络 拓 扑 、 路 由 算法 和 交换 结构 等 。 

第 5、7 和 8 章 是 关于 多 处 理 器 的 。 第 5 章 给 出 了 消息 传递 和 共享 内 存 多 处 理 器 的 基 
本 结构 和 机 制 。 首 先 通 过 程序 例子 讲解 编程 模型 和 基本 的 应 用 编程 接口 ， 这 样 可 以 方便 读 
者 理解 体系 结构 中 需要 的 各 种 机 制 。 该 章 分 层 给 出 了 消息 传递 所 需 的 基本 体系 结构 支持 ， 
从 各 种 消息 传递 原 语 到 实现 所 需 的 基本 交换 协议 ， 再 到 加 速 所 需 的 相关 硬件 支持 。 第 5 章 
其 余部 分 关注 共享 内 存 系统 。 共 享 内 存 系统 有 几 种 可 行 的 组 织 方式 ， 不 过 出 于 商业 上 的 考 
虑 ， 目 前 最 主要 的 方式 是 利用 现 有 的 商业 微 处 理 器 来 搭建 新 的 多 处 理 器 系统 ， 这 些 现 有 的 
微 处 理 器 都 有 自己 的 cache。 共 享 内 存 系统 的 每 个 处 理 器 和 片上 多 处 理 器 的 每 个 核 都 有 自 
己 的 私有 指令 cache、 数 据 cache 和 虚 地 址 转换 cache。 因 此 必须 采取 某 些 机 制 保证 它们 在 
结构 上 的 一 致 性 。 该 章 将 介绍 总 线 系统 和 分 布 式 共 享 内 存 系统 (cc-NUMA 和 COMA) 这 
两 大 类 结构 。 

第 5 章 介 绍 了 共享 内 存 系 统 的 体系 结构 ， 而 第 7 章 则 主要 解决 共享 内 存 多 处 理 器 的 逻 
辑 属 性 问题 ， 包 括 同步 、 一 致 性 和 存储 一 致 性 模型 ， 这 三 者 之 间 有 着 紧密 且 微 妙 的 联系 。 
同步 原 语 和 对 应 的 机 制 对 于 多 线程 程序 的 执行 至 关 重 要 ， 必 须要 有 硬件 支持 。 在 多 个 
cache 和 缓存 中 同一 个 地 址 对 应 的 多 个 备份 需要 保证 一 致 性 。 共 享 内 存 系统 最 终 的 正确 性 
在 于 存储 一 致 性 ， 它 规定 了 访 存 的 动态 交错 顺序 。 本 书 从 静态 调度 处 理 器 和 动态 调度 处 理 
器 两 方面 描述 了 存储 一 致 性 模型 的 实现 。 第 7 章 是 本 书 中 理论 性 最 强 的 一 章 ， 但 是 也 并 不 
要 求 读 者 具备 相关 的 理论 背景 。 

第 8 章 讲解 片上 多 处 理 器 (CMP) 。 由 于 具有 集成 密度 高 、 通 信 延 迟 低 的 特点 ， 因 此 
CMP 有 可 能 带 来 新 的 、 更 简单 高 效 的 编程 模型 。 在 CMP 环境 中 ，CPU 相对 低廉 ， 可 以 用 
于 各 种 新 型 计算 模式 。 本 章 包 括 CMP 相关 的 诸多 内 容 ， 如 CMP 体系 结构 、 核 内 多 线程 、 
事务 内 存 、 推 测 多 线程 和 辅助 执行 等 。 

最 后 ， 第 9 章 关注 计算 机 体系 结构 设计 的 量化 评估 模型 。 计 算 机 体系 结构 的 很 多 设计 
决策 是 基于 一 系列 在 面积 、 性 能 、 功 耗 和 可 靠 性 等 方面 的 权衡 而 得 出 的 。 任 何 旨 在 改进 现 
有 实现 的 设计 都 必须 经 过 严格 的 量化 评估 以 评价 这 些 改进 的 有 效 性 。 因 此 ， 学 生 和 实践 人 
员 需 要 理解 探索 设计 空间 的 量化 方法 。 在 本 章 中 , 我们 会 介绍 很 多 这 类 话题 ， 比 如 模拟 方 
法 、 采 样 技术 、 工 作 负 载 特征 刻画 方法 等 。 
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在 过 去 20 年 里 ， 我 们 经 历 了 由 半导体 集成 和 互联 网 的 爆炸 式 增长 所 驱动 的 信息 革命 。 早 
在 20 世纪 60 年代， 摩尔 定律 就 预测 了 半导体 器 件 的 性 能 呈 指 数 级 增长 。 摩 尔 定律 包含 几 个 构 
想 ， 其 中 一 个 是 针对 微 处 理 器 的 计算 能 力 ， 摩 尔 定律 预测 在 固定 成 本 下 微 处 理 器 的 计算 能 力 每 
18 到 24 个 月 翻 一 番 ， 所 以 其 成 本 效率 (性 能 和 成 本 的 比值 ) 也 将 呈 指 数 级 增长 。 我 们 已 经 看 
到 整个 系统 的 计算 能 力 一 直 在 以 同样 的 速度 持续 增长 ， 摩 尔 定律 已 经 经 历 了 时 间 的 考验 ， 时 至 
今日 仍然 有 效 。 无 论 是 现在 还 是 将 来 ， 摩 尔 定律 都 将 被 反复 检验 ， 如 今 很 多 人 认为 摩尔 定律 将 
很 快走 向 终结 ， 其 主要 证 据 就 是 CMOS 工艺 尺寸 的 减 小 已 经 快要 达到 极限 ， 即 所 谓 的 CMOS 
极限 。 

除了 半导体 工艺 的 进步 ， 多 年 来 ， 不 断 改进 的 芯片 设计 方法 也 使 微 处 理 器 的 性 能 显著 提 
高 。 从 历史 角度 看 ， 每 一 代 新 工艺 产品 中 ,晶体 管 翻转 速度 和 片上 晶体 管 数 量 都 急剧 上 升 ， 更 
快 的 晶体 管 翻转 速度 带 来 了 更 高 的 主 频 ， 芯 片 设计 也 通过 改善 电路 的 设计 或 增加 指令 执行 中 的 
流水 级 而 带 来 了 更 高 的 主 频 。 流 水 越 深 ， 每 个 流水 线 阶段 执行 功能 所 需 的 门 延 迟 就 越 短 。 更 重 
要 的 是 ， 近 年 来 大 幅度 增加 的 片上 资源 给 芯片 架构 师 带 来 了 新 的 机 会 ， 可 以 部 署 各 种 技术 以 提 
高 春 吐 量 , 例如 在 各 级 硬件 /软件 栈 上 挖掘 并 行 性 。 如 何 将 上 述 先 进 工 艺 所 带 来 的 不 断 增 长 的 
资源 充分 利用 好 是 计算 机 体系 结构 领域 面临 的 主要 挑战 。 

计算 机 体系 结构 是 一 门 相对 “年 轻 ” 的 工程 科学 。 在 20 世纪 70 年 代 初 期 ， 伴 随 着 并 行 处 
理 国 际会 议 (International Conference on Parallel Processing，ICPP) 与 计算 机 体系 结构 国际 研讨 
会 (International Symposium on Computer Architecture，ISCA) 的 成 功 创立 ,计算 机 体系 结构 的 学 
术 和 研究 领域 开始 发 展 ， 显 然 那 时 候 的 并 行 处 理 已 经 成 为 计算 机 体系 结构 的 一 大 焦点 。 实 际 
上 ,在 20 世纪 80 年 代 和 90 年 代 初 ， 并 行 处 理 和 并 行 计算 机 体系 结构 是 该 领域 研究 人 员 之 间 
非常 热门 的 话题 ， 学 术 研 究 人 员 使 用 大 量 速 度 慢 、 价 格 低 的 处 理 单元 来 构造 可 扩展 的 并 行 系 
统 。 和 现在 的 观点 类 似 ， 当 时 人 们 也 认为 基于 单一 中 央 处 理 单元 的 系统 必然 会 很 快 消亡 。 然 而 
工业 界 却 选择 了 另外 一 种 方式 ，20 世纪 90 年 代 中 期 ， 由 于 微 处 理 器 的 繁荣 ， 并 行 系统 黯然 失 
色 。 随 后 几 年 ， 单 一 CPU 的 微 处 理 器 处 理 速度 得 到 飞速 发 展 ， 随 着 摩尔 定律 的 延续 ， 设 计 师 
们 迅速 提高 了 芯片 中 的 晶体 管 密度 和 时 钟 频率 。 过 去 这 些 增加 的 晶体 管 主要 用 于 设计 能 够 在 任 
意 给 定 周 期 内 处 理 数 百 个 指令 的 复杂 乱 序 处 理 器 。 相 比 于 解决 并 行 系统 的 编程 复杂 性 问题 ， 工 
业界 宁可 选择 通过 不 断 提高 复杂 乱 序 处 理 器 的 时 钟 频率 来 满足 计算 机 用 户 日 益 增长 的 计算 需 
求 ， 因 为 这 在 当时 是 一 条 便捷 可 行 的 途径 。 在 商业 领域 ， 多 处 理 器 仅仅 被 视 为 单 处 理 器 系统 的 
扩展 ， 并 提供 一 系列 拥有 多 种 性 价 比 的 机 器 。 

这 种 情况 在 21 世纪 早期 迅速 改变 。 技 术 发 展 趋势 转向 支持 多 个 CPU 或 多 核 处 理 器 。 在 工 
业界 和 学 术 界 中 , 诸如 功 耗 、 复 杂 性 、 处 理 器 和 内 存 之 间 日 益 增长 的 性 能 差距 等 问题 再 次 引发 
了 人 们 对 并 行 处 理 和 并 行 体系 结构 的 研究 兴趣 。 如 今 ， 计 算 机 体系 结构 领域 已 经 达成 共识 : 未 
来 所 有 的 微 架 构 都 将 采取 某 种 形式 的 并 行 执行 。 片 上 多 处 理 器 (Chip MultiProcessor， CMP) 就 
是 这 样 一 种 新 兴 的 微 架 构 形 式 ， 这 也 是 本 书 的 主要 关注 点 之 一 。 

如 何 设 计 一 个 微 处 理 器 、 微 处 理 器 的 一 部 分 或 者 整个 计算 机 系统 是 计算 机 架构 师 的 工作 。 
虽然 摩尔 定律 适用 于 任何 设备 或 系统 ， 并 且 本 书 中 所 涉及 的 许多 技术 适用 于 其 他 类 型 的 微 芯片 
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(如 ASIC 等 ), 但 是 本 书 特别 着 重 于 能 够 高 效 执行 指令 集 的 指令 处 理 系统 和 微 处 理 器 。 


1.1 什么 是 计算 机 体系 结构 


计算 机 体系 结构 是 一 门 工程 或 应 用 科学 学 科 ， 它 主要 研究 如 何在 给 定 的 工艺 限制 和 软件 要 
求 下 设计 更 好 的 计算 机 。 过 去 计算 机 体系 结构 是 指令 集 设计 的 代名词 ， 然 而 随 着 时 间 的 推移 ， 
该 术语 已 经 涵盖 了 计算 机 的 硬件 组 成 、 微 处 理 器 乃至 硬件 组 件 级 别 的 整个 系统 的 设计 。 本 书 
中 ,我 们 采用 了 默认 的 “计算 机 体系 结构 ”的 现代 定义 ， 即 “计算 机 硬件 组 成 和 计算 机 设 
计 ”， 在 提 到 指令 集 时 ， 我 们 将 明确 地 使 用 术语 “指令 集 架 构 ” (简称 ISA) 。 从 指令 集 的 设计 
发 展 历史 可 以 看 出 ， 指 令 集 是 非常 稳定 的 ， 现 在 只 有 少数 仍 为 工业 界 所 支持 ， 虽 然 目 前 的 指令 
集 可 能 会 不 断 扩展 ,但 从 头 开始 设计 新 的 指令 集 是 几乎 不 可 能 的 ， 因 为 开发 一 个 全 新 的 指令 集 
并 进行 实现 的 成 本 无 疑 非常 巨大 。 本 书 中 ,我 们 将 粗略 地 介绍 指令 集 架 构 ， 因 为 这 不 是 我 们 的 
主要 目标 ， 我 们 的 主要 目标 是 在 给 定 成 本 和 工艺 限制 下 快速 、 正 确 地 实现 指令 集 架构 的 并 行 计 
算 机 体系 结构 。 

计算 机 系统 的 设计 非常 复杂 ， 需 要 许多 不 同 工 程 和 科学 领域 的 能 力 。 管 理 这 种 复杂 性 的 唯 
一 方法 是 将 设计 分 层 ， 以 便 不 同 领域 的 工程 师 和 科学 家 可 以 专注 于 自己 能 力 所 及 的 那 一 层 。 
图 1-1 给 出 了 现代 计算 机 系统 的 分 层 视 图 ， 每 一 层 都 依赖 于 它 的 底层 。 特 定 领域 的 专家 使 用 高 
级 语言 FORTRAN 、C ++ 或 Java 等 编写 应 用 程序 ， 程 序 在 用 户 级 调用 函数 库 来 实现 常见 和 复杂 
的 用 户 级 功能 ， 并 调用 操作 系统 来 实现 系统 功能 ， 如 输入 /输出 、 存 储 管理 等 。 编 译 器 将 程序 
源 代码 编译 成 机 器 和 操作 系统 (通过 系统 调用 ) 可 以 理解 的 代码 (如 目标 代码 或 机 器 代码 ) ， 
编译 器 的 设计 者 只 需要 专注 于 解析 高 级 语言 语句 、 优 化 程序 代码 ， 并 将 其 翻译 成 汇编 或 机 器 代 
码 ， 而 目标 代码 则 与 函数 库 相 连接 以 实现 一 系列 常见 的 软件 功能 。 操 作 系统 通过 管理 拥有 复杂 
功能 的 软件 以 及 协调 多 个 用 户 之 间 高 效 、 安 全 、 透 明 地 共享 机 器 资源 来 扩展 硬件 的 功能 ， 这 就 
是 内 核 开发 人 员 的 工作 。 指 令 集 架构 (ISA) 则 位 于 复杂 软件 层 的 下 层 。 


Ag 


图 1-1 计算 机 系统 的 分 层 视图 


ISA 是 一 个 特别 重要 的 接口 ， 它 将 软件 与 硬件 、 计 算 机 科学 家 与 计算 机 /电子 工程 师 区 分 、 
开 来 。ISA 的 实现 独立 于 它 之 上 运行 的 所 有 软件 层 ， 计 算 机 架构 师 的 目标 是 在 给 定 的 工艺 限制 
下 设计 一 个 尽 可 能 高 效 地 实现 指令 集 的 硬件 设备 ， 由 于 计算 机 架构 师 负责 设计 软 硬 件 的 交互 
层 ， 因 此 必须 对 软 硬 件 都 十 分 熟悉 ， 与 此 同时 ， 他 必须 了 解 编译 器 和 操作 系统 ， 还 需 关 注 工 艺 
限制 和 电路 设计 技术 。 

系统 功能 既 可 以 通过 硬件 实现 ， 也 可 以 通过 软件 实现 。 对 于 某 些 类 型 的 异常 ， 如 虚 存 系统 
中 的 TLB 出 现 缺失 时 ， 就 可 以 通过 硬件 或 内 核 软件 来 完成 相应 的 处 理 ; 而 cache 一 致 性 的 某 些 
组 件 也 可 以 通过 硬件 或 软件 来 实现 。 使 用 软件 实现 系统 功能 可 以 简化 硬件 电路 的 设计 ， 但 软件 
实现 的 系统 功能 通常 比 硬件 实现 的 功能 要 慢 。 一 旦 硬件 架构 确定 了 ， 就 可 以 交 给 电路 工程 师 进 
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行 实现 ， 当 然 这 个 过 程 可 能 需要 多 个 迭代 。 最 后 ， 硬 件 板 卡 的 设计 和 开发 是 由 工艺 制造 工程 师 
和 材料 科学 家 共同 完成 的 。 

通过 分 离 软 硬件 层次 ，ISA 在 计算 机 行业 所 取得 的 巨大 成 就 中 扮演 了 至 关 重 要 的 角色 。 在 
20 世纪 50 年 代 到 60 年 代 初 ， 每 一 代 新 计算 机 都 有 不 同 的 指令 集 设计 ， 事实 上 指令 集 是 定义 每 
代 计算 机 设计 的 标志 ,但 这 种 策略 的 缺点 是 软件 很 难 从 一 台 机 器 移植 到 男 一 台 机 器 上 。 那 时 候 
还 没有 编译 器 ， 所 有 的 程序 都 是 由 汇编 语言 编写 的 。1964 年 ，IBM 公司 推出 System/360 ISA 而 
转型 成 为 我 们 所 熟知 的 大 型 计算 机 公司 ， 从 那 时 起 ，IBM 公司 保证 其 所 有 未 来 的 计算 机 都 能 够 
运行 为 System/360 ISA 编写 的 软件 ， 因 为 他 们 会 永远 支持 System/360 的 指令 ， 这 就 是 向 后 兼 
容 。 向 后 兼容 确保 了 所 有 二 进 制 编写 的 代码 或 是 基于 IBM System/360 ISA 的 编译 可 以 永远 运行 
在 任何 IBM/360 的 系统 上 ， 因 此 软件 不 会 过 时 。IBM 360 指令 集 在 未 来 可 能 会 有 所 扩展 ， 且 事 
实 的 确 如 此 ， 但 它 永 远 不 会 删 减 指令 ， 也 不 会 改变 任何 现 有 指令 的 语义 或 影响 。 这 一 战略 经 受 
住 了 时 间 的 考验 ， 即 使 现在 大 部 分 程序 都 是 用 高 级 语言 编写 然后 再 编译 成 二 进 制 文件 的 ， 这 一 
点 依然 很 重要 ， 因 为 二 进 制 对 应 的 源 代码 可 能 会 丢失 ,而 且 通 常 软件 供应 商 也 只 提供 目标 代码 
的 形式 。 多 年 来 ， 由 于 指令 的 扩展 ，System/360 先后 更 名 为 System/370、System/390， 现 在 叫 
作 System z。 

由 于 指令 集 随 时 间 的 改变 并 不 大 ， 性 能 需求 


因此 计算 机 架构 师 的 主要 职责 是 构建 最 
好 的 硬件 体系 结构 以 满足 日 益 增长 的 软 
件 系 统 需 求 。 图 1-2 显示 了 日 益 增长 的 
软件 需求 和 硬件 性 能 之 间 的 协同 作用 ， EE 
伴随 着 应 用 的 升级 ， 用 户 对 硬件 的 要 求 图 1-2 应 用 增长 与 硬件 性 能 之 间 的 协同 作用 
越 来 越 高 (如 处 理 速度 、 存 储 容量 或 输入 输出 带宽 ) ， 另 一 方面 ， 硬 件 的 发 展 也 给 软件 开发 人 
员 提供 了 更 多 利用 硬件 资源 的 新 机 会 。 多 年 来 ， 正 是 这 种 协同 作用 帮助 Intel 和 Microsoft 公司 
创造 了 一 个 个 奇迹 。 

当前 ， 我 们 正 处 在 这 样 一 个 持续 循环 中 的 重要 时 刻 ， 微 架构 的 演变 决定 了 软件 必须 进一步 
并 行 化 ， 这 样 才能 充分 利用 多 核 处 理 器 所 带 来 的 新 硬件 机 遇 。 今 天 的 技术 决定 了 我 们 必须 借助 
于 片上 多 处 理 器 (CMP) 这 样 的 方式 才能 获得 更 高 的 性 能 ， 相 比 于 所 有 的 技术 挑战 ， 高 效 并 行 
软件 的 开发 可 能 是 未 来 计算 机 系统 所 面临 的 最 大 挑战 。 软 件 必须 利用 好 多 处 理 器 架构 ， 过 去 人 
们 已 经 多 次 尝试 了 并 行 编程 以 及 如 何 将 串 行 代 码 编译 成 并 行 代码 ， 只 有 软件 可 以 充分 利用 和 发 
挥 多 核 、 多 线程 的 力量 ， 信 息 革命 才 会 真 
正 完成 。 多 核 微 处 理 器 后 端 总 线 

由 于 工艺 限制 ， 硬 件 无 法 如 摩尔 定律 
所 预见 的 那样 维持 单线 程 的 性 能 呈 指 数 级 
增长 ， 未 来 的 微 处 理 器 将 有 多 个 处 理 器 核 La 
并 行 地 运行 多 个 线程 。 未 来 ， 单 线程 性 能 
的 平均 增长 速度 将 更 加 平缓 ， 摩 尔 定律 的 
应 用 计算 能 力 将 会 通过 在 每 个 处 理 器 节点 
上 并 行 地 运行 越 来 越 多 的 线程 来 满足 。 


1.2 并行 体系 结构 的 基本 组 成 


图 1-3 给 出 了 一 个 最 基本 的 个 人 计算 
机 (PC), 它 也 是 一 个 最 简单 的 并 行 计算 图 1-3 个 人 电脑 的 基本 架构 
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机 。 北 桥 芯片 是 系统 总 线 ， 用 来 连接 处 理 器 、 内 存 和 IO 设备 。PCI (Peripheral Component Inter- 
connect) 是 输入 /输出 总 线 ， 用 来 将 高 速 LO 接口 连接 到 磁盘 和 网 络 ， 将 低速 LO 设备 (如 键盘 、 
打印 机 和 鼠标 ) 连接 到 北桥 。 南 桥 是 用 来 连接 低 带宽 外 围 设备 〈 如 打印 机 、 键 盘 ) 的 总 线 。 

图 1-4 给 出 了 一 个 通用 的 高 端 并 行 体系 结构 。 若 干 处 理 器 节点 通过 互连网 络 连接 并 相互 传 
送 数据 。 每 个 节点 都 包含 一 个 〈 可 能 为 多 核 ) 处 理 器 (P)、 一 个 共享 内 存 (M) 以 及 一 个 组 
存 层 次 结构 〈(C) ， 处 理 器 节点 都 连接 到 全 局 互 连 总 线 或 通过 网 络 接口 (NI) 进行 点 对 点 互 连 。 
计算 机 系统 的 另 一 个 重要 组 成 部 分 是 YO，L0 设备 (如 磁盘 ) 通常 连接 到 1/0 总 线 ， 这 也 是 
每 个 处 理 器 节点 内 部 存储 之 间 相 互 连 接 的 接口 。 处 理 器 、 eet 
统 的 三 个 关键 组 件 。 





图 1-4 分 布 式 存储 的 通用 多 处 理 器 系统 


1.2.1 处 理 器 


在 这 个 片上 多 核 处 理 器 和 多 线程 处 理 器 核 的 时 代 ， 首 先 给 出 一 些 基 本 定义 : 
程序 〈 也 称 为 代码 、 代 码 段 或 代码 片段 ) 是 程序 员 所 编写 的 用 来 执行 算法 计算 步骤 的 一 
组 静态 语句 。 进 程 或 线程 是 散 入 执行 这 些 计算 步骤 的 抽象 概念 。 从 某 种 意义 上 说 ， 若 用 毫 饪 来 
作 比 喻 ， 程 序 就 是 用 来 说 明亮 饪 过 程 的 食谱 。 有 时 进程 与 线程 会 交替 使 用 ， 但 通常 管理 线程 比 
管理 进程 更 容易 〈 即 开销 更 少 ) ， 本 书 中 ,我 们 主要 使 用 线程 这 个 词 。 
线程 在 处 理 器 核 或 中 央 处 理 器 (Central Processing Unit，CPU) 上 运行 ， 处 理 器 核 或 CPU 
是 能 够 执行 线程 指令 的 硬件 实体 。 一 些 处 理 器 核 是 多 线程 的 ， 可 以 同时 执行 多 个 线程 ， 在 这 种 
情况 下 ， 每 个 运行 在 处 理 器 核 上 的 线程 都 有 其 上 下 文 环境 。 微 处 理 器 或 处 理 器 由 一 个 或 多 个 处 
理 器 核 组 成 ， 多 核 微 处 理 器 有 时 也 称 为 片上 多 处 理 器 或 CMP (Chip MultiProcessor) ， 多 处 理 器 
是 一 组 连接 在 一 起 执行 一 个 共同 工作 负载 的 处 理 器 。 
现在 的 处 理 器 都 是 批量 生产 的 ， 微 处 理 器 成 品 由 一 个 或 多 个 处 理 器 核 以 及 多 级 cache 组 
成 。 此 外 ， 为 了 减少 整个 系统 集成 所 需要 的 芯片 数量 ， 内 存 控制 器 、 外 部 cache 目录 以 及 网 络 
接口 等 系统 功能 部 件 都 可 能 会 集成 到 片上 。 
影响 处 理 器 核 性 能 的 因素 有 很 多 ， 其 中 最 主要 的 是 主 频 。 因 为 处 理 器 核 是 流水 工作 的 ， 所 
以 主 频 决 定 了 获取 和 执行 指令 的 速率 。 在 过 去 ， 微 处 理 器 的 性 能 主要 是 通过 其 主 频 来 表示 ， 而 、 
主 频 主 要 取决 于 以 下 三 个 因素 : 
。 工艺 节点 。 每 一 代 新 处 理 器 的 晶体 管 翻转 速度 会 增加 41% ， 这 是 晶体 管 工艺 尺寸 减 小 
的 直接 结果 。 这 个 因素 对 主 频 的 影响 在 未 来 将 会 减弱 ， 因 为 信号 在 电线 上 的 传输 速率 
无 法 像 晶 体 管 翻转 速度 那样 等 比例 提升 。 
。 流水 深度 。 随 着 流水 级 的 加 深 ， 各 流水 阶段 实现 的 功能 就 没 那么 复杂 了 ， 因 此 各 阶段 
的 门 延 迟 数 将 会 降低 。 历 史上 每 一 代 处 理 器 各 流水 阶段 的 门 延迟 数 都 较 上 一 代 降 低 了 
约 25% 。 不 过 从 现在 开始 ， 已 经 很 难 进 一 步 增加 流水 深度 了 ;因为 在 不 到 10 个 门 延迟 
的 时 间 内 很 难 实现 真正 的 流水 级 功能 。 
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。 电路 设计 。 通 过 设计 更 好 的 电路 结构 可 以 进一步 改善 门 延迟 和 互 连 延 迟 。 

图 1-5 显示 了 自 1990 年 以 来 ，Intel 各 代 处 理 器 的 最 高 时 钟 频率 。 我 们 对 时 钟 频率 曲线 和 
两 个 指数 函数 曲线 进行 了 对 比 ， 一 个 每 年 增长 19% (每 48 个 月 翻 一 番 ) ， 另 一 个 每 年 增长 
49% (每 21 个 月 翻 一 番 ) 。19 狗 的 曲线 显示 了 仅 由 工艺 进步 所 产生 的 时 钟 频 率 增长 (两 年 更 新 
一 代 ， 每 代 增 长 41% ) ， 它 表示 保持 硬件 结构 不 变 ， 仅 通过 工艺 升级 所 能 获得 的 时 钟 频率 增长 
速度 。 从 1990 年 到 2002 年 ， 时 钟 频率 的 增长 速度 加 快 ， 不 到 两 年 就 翻 一 番 (接近 49% 的 曲 
线 ) ，2002 年 之 后 ， 时 钟 频率 增长 速度 又 开始 减 慢 ， 并 在 2005 年 时 频率 达到 顶峰 。2003 年 以 
前 ，10GHz 的 时 钟 频率 看 起 来 很 快 就 会 实现 ， 当 时 一 些 人 预测 在 2010 年 之 前 时 钟 频率 将 达到 
10GHz。 事 实 上 ， 如 果 时 钟 频率 一 直 以 约 49% 的 速度 增长 ， 那 么 在 2008 年 时 就 将 达到 30GHz! 
但 在 2004 年 11 月，Intel 宣布 取消 时 钟 频率 4GHz 的 奔腾 4 处 理 器 的 计划 ， 转 而 研究 多 核 微 架 
构 。 这 一 声明 被 认为 是 微 处 理 器 工业 界 脱离 单 处 理 器 流水 设计 转 而 研究 多 核 微 架 构 的 一 个 重大 
转折 点 。 
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图 1-5 1990 ~2008 年 mtel 各 代 处 理 器 的 最 高 时 钟 频 率 变化 曲线 


据 观察 ， 在 1990 ~2002 年 ， 体 系 结构 在 时 钟 频 率 的 大 规模 增长 中 起 到 了 至 关 重 要 的 作用 。 
这 些 时 钟 频率 增长 在 很 大 程度 上 归功 于 奔腾 五 和 奔腾 4 微 架 构 中 出 现 的 更 深 流水 级 设计 。 为 了 
支持 10 ~20 级 的 流水 ， 必 须 从 指令 流 中 提取 大 量 的 并 行 成 分 ， 本 书 涵盖 了 体系 结构 的 诸多 创 
新 ， 如 分 支 预测 、 寄 存 器 重 命名 、 重 排序 缓冲 、 无 锁 cache、 内 存 相 关 性 预测 等 ， 这 些 都 是 高 
效 乱 序 执行 、 推 测 执行 以 及 挖掘 大 量 指令 级 并 行 (ILP) 的 关键 。 没 有 这 些 创 新 ， 处 理 器 流水 
级 做 得 再 深 也 将 是 徒劳 的 。 

有 观点 认为 过 去 时 钟 频率 的 增长 速度 在 未 来 将 难以 持续 ， 原 因 有 三 : 第 一 ， 我 们 很 难 构造 
出 不 到 10 个 逻辑 门 的 有 效 流水 级 ， 现 在 已 经 到 达 了 极限 ; 第 二 ， 在 未 来 的 技术 中 ， 连 线 延 迟 
而 不 是 晶体 管 翻转 速度 将 决定 时 钟 周期 的 大 小 ; 第 三 ， 电 路 时 钟 频 率 越 高 将 导致 功 耗 也 越 高 ， 
而 现 如 今 我 们 已 经 达到 了 单 芯片 微 处 理 器 的 功 耗 极限 。 图 1-5 有 效 证 实 了 这 一 观点 ， 可 以 看 出 
自 2002 年 以 来 ， 微 处 理 器 时 钟 频 率 的 改进 始终 停滞 不 前 。 

计算 机 体系 结构 的 贡献 不 仅仅 体现 在 时 钟 频 率 的 改进 ， 指 令 的 吞吐 量 也 可 以 通过 计算 机 体 
系 结构 的 改进 来 得 到 提高 ， 如 : 更 好 的 存储 系统 设计 ， 提 高 处 理 器 各 部 分 的 效率 ， 每 个 时 钟 周 
期 提取 和 译 码 多 个 指令 ， 在 一 个 处 理 器 核 上 同时 运行 多 个 线程 〈 称 为 核 内 多 线程 ) ， 甚 至 同时 
在 多 个 核 上 运行 多 个 线程 等 。 除 了 更 高 的 频率 ， 每 一 代 新 工艺 都 为 计算 机 架构 师 提供 了 可 以 用 
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来 进一步 提高 机 器 性 能 的 大 量 新 资源 (如 晶体 管 和 引 脚 )， 利 用 日 益 增长 资源 的 最 简洁 明了 的 
方法 就 是 在 芯片 上 增加 更 多 的 缓存 空间 ， 不 过 这 个 资源 也 可 以 用 于 其 他 方面 ， 这 也 为 计算 机 架 
构 师 提供 了 新 的 机 会 。 

图 1-6 给 出 了 Intel 从 1971 年 到 2008 年 并 预测 至 2020 年 芯片 特征 尺寸 的 进化 过 程 。 在 过 去 
的 20 年 里 , 每 两 年 推出 一 代 新 工艺 ， 特 征 尺 寸 以 每 年 15% 的 速度 缩减 ， 即 每 一 代 缩 减 30% ， 
每 5 年 缩减 一 半 。 图 1-6 还 显示 了 自 1971 年 以 来 ， 每 年 Intel 微 处 理 器 芯片 上 的 最 大 晶体 管 数 
量 ， 这 个 数量 影响 了 晶体 管 密度 和 晶片 面积 的 增长 ， 从 图 中 可 以 看 到 片上 晶体 管 的 数量 每 两 年 
翻 一 番 。 截 至 2008 年 ， 片 上 晶体 管 数量 已 达到 了 10 亿 ， 如 果 按 照 这 一 趋势 发 展 下 去 ， 到 2020 
年 片上 晶体 管 数量 将 达到 1000 亿 。 不 过 ， 这 种 趋势 是 根据 过 去 的 数据 所 建立 的 ， 因 此 它 也 只 
能 代表 过 去 的 发 展 趋势 。 
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图 1-6 Intel 微 处 理 器 的 特征 尺寸 


在 今后 的 十 年 中 ,设法 以 最 好 的 方式 开发 利用 1000 亿 个 片上 晶体 管 是 计算 机 体系 结构 研 
究 领 域 面临 的 最 大 挑战 之 一 ， 最 可 能 且 最 有 前 途 的 研究 方向 是 在 大 规模 芯片 上 实现 拥有 成 百 上 
于 处 理 器 核 的 多 处 理 器 。 


1.2.2 存储 


存储 系统 由 高 速 缓存 、 主 在 和 磁盘 存储 组 成 。 任 何 由 处 理 器 直接 访问 的 数据 或 指令 都 必须 
存储 在 主 存 中 。 主 存 〈 访 问 时 间 在 100ns 范围 内 ) 与 处 理 器 〈 时 钟 频率 为 几 GHz) 之 间 以 及 磁 
盘 〈 访 问 时 间 以 ms 为 单位 ) 与 处 理 器 之 间 的 速度 差距 是 计算 机 系统 领域 中 长 期 存在 的 问题 。 

存储 系统 的 设计 是 由 它 的 成 本 和 物理 约束 所 决定 的 。 物 理 约束 包括 两 方面 ， 一 方面 是 计算 
机 系统 需要 一 个 非常 大 的 非 易 失 性 存储 器 来 存储 永久 文件 ， 最 高 效 的 半导体 存储 器 (如 主 存储 
器 和 高 速 缓存 ) 是 易 失 性 的 ， 切 断 电 源 时 它们 所 存储 的 内 容 将 会 丢失 。 通 常 使 用 硬盘 来 实现 非 
易 失 性 存储 ， 固 态 硬盘 (SSD) 虽然 成 本 较 高 , 但 也 经 常 在 一 些 系统 中 使 用 。 男 一 方面 ， 访 存 
时 间 会 随 着 存储 空间 的 增加 而 增长 ， 未 来 的 技术 更 是 如 此 ， 因 为 访问 半导体 存储 的 时 间 是 由 线 
路 延 时 来 决定 的 ， 存 储 空间 越 大 ， 地 址 译 码 、 地 址 线 传播 和 位 线 传播 所 需 的 时 间 就 越 长 。 表 1- 
1 列 出 了 一 台 2008 年 的 个 人 电脑 中 不 同 存储 层次 的 基本 成 本 和 规模 大 小 。 
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表 1-1 2008 年 一 台 个 人 电脑 存储 的 基本 规模 与 成 本 


Tn 成本 


存储 分 层 的 目的 是 让 处 理 器 认为 整个 存储 系统 的 平均 访 存 时 间 近 似 于 处 理 器 时 钟 周期 时 
间 ， 同 时 使 得 整个 存储 系统 的 存储 空间 和 单位 存储 的 成 本 接近 于 磁盘 存储 器 。 

主 存 

主 存 (由 DRAM 组 成 ) 与 处 理 器 之 间 的 速度 差距 大 到 足够 影响 处 理 器 的 性 能 。 例 如 ， 若 处 
理 器 的 时 钟 频率 是 1GHz， 主 存 的 访问 速度 是 100ns， 则 处 理 器 在 等 待 访 存 期 间 可 以 执行 100 条 指 
令 , 无 论处 理 器 多 复杂 、 主 频 多 快 ， 它 的 速度 都 无 法 超过 存储 系统 提供 指令 和 数据 的 速度 。 

从 历史 上 看 ， 处 理 器 的 处 理 周期 和 主 存 访 存 时 间 之 间 的 差距 一 直 以 惊人 的 速度 在 增长 ， 这 
一 趋势 称 为 内 存 墙 (memory wall) 问题 。 随 着 时 钟 频率 和 计算 机 体系 结构 的 创新 ， 微 处 理 器 的 
速度 每 年 以 超过 50% 的 速度 增长 ， 而 DRAM 每 年 性 能 的 提高 不 超过 7% ， 而 且 访 存 时 间 不 仅 包 
括 访问 DRAM 芯片 的 时 间 ， 还 包括 经 由 存储 总 线 和 存储 控制 器 的 时 间 延 迟 。 

图 1-7 给 出 了 多 年 来 内 存 墙 的 发 展 趋势 。 内 存 墙 被 定义 为 主 存 访 存 时 间 同 处 理 器 时 钟 周期 
时 间 的 比值 。1990 年 ，Intel i486 的 时 钟 频率 是 23MHz， 访 存 时 间 是 150ns， 则 内 存 墙 值 为 4。 
如 果 从 1990 年 起 ， 处 理 器 的 性 能 以 每 年 49% 的 速度 提高 ， 则 截至 2008 年 ， 内 存 墙 将 增长 至 
1990 年 的 400 倍 ， 也 就 是 这 个 比值 会 变 成 1600。 显 然 事 实 并 非 如 此 。 当 处 理 器 的 时 钟 频率 达 
到 顶峰 时 ，DRAM 的 速度 仍 在 平稳 提升 ， 因 此 2008 年 内 存 与 处 理 器 间 的 实际 性 能 差距 仅 是 
1990 年 的 40 倍 。 图 1-7 显示 了 内 存 墙 在 2002 年 左右 达到 了 峰值 ， 自 2003 年 以 来 则 有 所 下 降 。 
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1-7 内 存 墙 (DRAM 访问 时 间 /CPU 时 钟 周期 时 间 ) 


从 历史 上 看 ， 通 过 在 处 理 器 和 主 存 之 间 构 建 层 次 化 的 cache 结构 ， 以 及 在 处 理 器 和 层次 化 
的 cache 结构 中 构建 较 大 cache miss 时 的 延迟 容忍 机 制 ， 可 以 掩盖 DRAM 的 平庸 性 能 。 层 次 化 
的 cache 结构 是 由 几 个 不 同 大 小 和 不 同 访 存 时 间 的 缓存 层次 所 构成 的 ， 层 次 化 的 cache 结构 依 
赖 于 访 存 的 位 置 属性 。 

显然 ， 主 存 和 处 理 器 之 间 的 速度 差距 至 今 仍 然 是 一 个 严重 的 问题 ， 但 如 果 照 目前 的 趋势 发 
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展 下 去 ， 内 存 墙 在 未 来 不 会 进一步 加 大 ， 至 少 它 的 增长 速度 将 大 大 降低 。 目 前 达成 的 共识 是 内 
存 墙 问题 已 经 控制 得 很 好 ， 随 着 片上 多 处 理 器 的 出 现 ， 以 及 对 处 理 器 节点 cache miss 所 带 来 的 
延迟 的 积极 优化 ， 目 前 ， 相 较 于 存储 访问 延迟 ， 存 储 带 宽 (存储 系统 单位 时 间 内 的 访问 次 数 ) 
正 快 速成 为 我 们 所 面临 的 更 主要 的 问题 。 

虽然 DRAM 的 速度 并 未 随 着 时 间 的 推移 获得 大 幅 提 高 ， 但 每 个 DRAM 芯片 的 存储 位 数 却 
以 每 3 年 4 倍 的 速度 增长 。1977 年 ， 单 个 DRAM 芯片 的 存储 容量 是 1Kbit，1992 年 和 2007 年 单 
个 DRAM 芯片 的 存储 容量 分 别 达 到 了 1Mbit 和 1Gbit， 如 果 照 这 个 趋势 发 展 下 去 ， 到 2021 年 ， 
单个 DRAM 芯片 的 存储 容量 将 达到 1Tbit (10 ”bit) 。 

磁盘 \ 
磁盘 访问 时 间 由 两 部 分 组 成 : 一 部 分 是 访问 时 间 ( 寻 道 时 间 加 延迟 时 间 )， 它 独立 于 传输 
数据 的 规模 ; 男 一 部 分 是 传输 时 间 ， 它 与 传输 数据 的 规模 成 正比 。 寻 道 时 间 是 指 磁头 移动 到 指 
定 磁道 上 所 经 历 的 时 间 ， 延 迟 时 间 是 指 磁头 到 达 磁 道上 第 一 个 要 访问 的 记录 时 所 经 历 的 时 间 ， 
延迟 时 间 和 传输 时 间 都 取决 于 磁盘 的 旋转 速度 。 图 1-8 显示 了 访问 一 块 4KByte 数据 所 需 的 平均 
访问 时 间 与 传输 时 间 。 过 去 磁盘 访问 时 间 主 要 由 传输 时 间 所 主导 ， 然 而 多 年 来 当 访问 时 间 以 每 
年 8. 5% 的 速度 缓慢 减少 时 ， 传 输 时 间 却 以 每 年 40% 的 速度 大 幅度 减少 ， 如 果 传 输 时 间 仍 以 当 
前 速度 减少 ， 则 磁盘 访问 时 间 将 主要 由 访问 时 间 所 主导 。 需 要 注意 的 是 这 里 提 到 的 所 有 时 间 仍 
以 ms 为 单位 ， 图 中 给 出 了 访问 时 间 随 着 年 份 的 减少 速度 ， 可 以 预见 未 来 处 理 器 与 磁盘 性 能 之 


间 的 差距 仍 将 非常 大 。 
一 和 一 传输 时 间 ( 4KB ) | 
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图 1-8 磁盘 访问 和 传输 时 间 


磁盘 密度 的 增长 非常 迅速 ， 如 图 1-9 所 示 ,1997 ~ 2003 年 平均 -CGR (复合 增长 率 ) 是 、 
100% ( 即 每 年 翻 一 番 ) ， 最 近 它 以 每 年 30% 的 速度 平稳 增长 ， 密 度 与 成 本 直接 相关 ， 因 此 单 
位 存储 的 成 本 也 在 迅速 下 降 。 

由 于 磁盘 访问 速度 为 机 械 设备 的 工作 速度 ， 因 此 辅助 存储 器 和 半导体 存储 器 之 间 的 速度 差 
距 也 非常 大 。 如 果 一 次 磁盘 访问 需要 10ms， 处 理 器 的 时 钟 频率 超过 1GHz， 则 在 磁盘 访问 期 间 
可 以 执行 数 以 百 万 计 的 指令 ， 因 此 处 理 器 从 不 等 待 磁盘 访问 的 完成 ， 通 常 是 多 个 进程 之 间 共 享 
包括 主 存在 内 的 硬件 资源 。 当 正在 运行 的 进程 请 求 访问 磁盘 时 ， 操 作 系统 会 先 阻塞 它 ， 并 调度 
执行 另 一 个 处 于 就 绪 态 的 进程 ， 一 旦 磁盘 访问 结束 ， 之 前 阻塞 的 进程 将 切换 为 就 绪 状 态 ， 以 便 
再 次 被 操作 系统 调度 执行 。 
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图 1-9 磁盘 密度 


1:2.3 互 连 


互连网 络 用 来 连接 各 级 组 件 。 
。 片上 互 连 用 来 传送 不 同 流水 级 和 执行 单元 之 间 的 数值 ， 现 在 片上 互 连 也 用 来 连接 各 个 
处 理 器 核 到 共享 的 cache bank。 
系统 互 连 用 来 连接 各 个 处 理 器 (CMP) 和 存储 器 以 及 IZO 设备 。 
LO 互 连 用 来 将 各 种 IO 设备 连接 到 系统 总 线 上 。 
。 系统 间 互 连用 来 连接 各 个 独立 的 系统 【单独 的 机 架 或 机 箱 ) ， 包 括 SAN (系统 区 域 网 ， 
连接 短 距离 的 系统 )、LAN (局域网 ， 连 接 一 个 组 织 或 建筑 内 的 系统 ) 和 WAN ( 广 域 
网 ， 连 接 远程 的 局 域 网 ) 。 
。 互联 网 是 一 个 全 球 范围 内 互 连 的 网 络 。 
本 书 中 我 们 关注 系统 内 互 连 (片上 和 系统 互 连 ) ， 并 且 不 会 直接 介绍 由 多 个 系统 互 连 的 任 
何 网 络 。 图 1-10 表明 ， 自 2000 年 以 来 ， 系统 总 线 (Intel 微 处 理 器 上 的 前 端 总 线 ) 速度 已 经 大 
幅 提升 了 一 个 数量 级 ， 而 这 个 稀 瑞 总 线 的 时 种 频率 hd 
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多 处 理 器 系统 中 的 处 理 器 之 间 需 要 进行 通信 ， 本 地 节点 通过 网 络 接口 进行 数据 的 收发 。 网 
络 接口 可 以 采用 许多 不 同 的 形式 ， 这 主要 取决 于 通信 模型 和 软件 支持 水 平 ， 它 最 原始 的 形式 是 
一 个 内 存 映 射 DMA 的 设备 ， 在 本 地 内 存 和 互 连 (进出 本 地 节点 ) 之 间 传 递 数据 。 


1.3 并 行 体系 结构 


标量 处 理 器 ( scalar processor) 是 最 成 功 的 微 架构 ， 其 中 每 条 指令 都 对 一 个 标量 数据 元 素 
进行 操作 。 例 如 最 典型 的 指令 是 : 


ADD 0O1,02,03, 


该 指令 将 标量 操作 数 02 和 03 相 加 ， 然 后 将 结果 赋 给 01。 标 量 处 理 器 中 的 每 条 指令 都 经 
历 了 取 指 、 译 码 、 执 行 和 完成 这 几 个 阶段 。 早 期 的 机 器 指令 从 取 指 到 完成 只 经 过 一 次 处 理 ， 随 
着 流水 线 的 产生 ， 不 同 指令 的 取 指 、 译 码 、 执 行 以 及 完成 的 周期 时 间 出 现 重合 ， 从 而 提高 了 处 
理 速度 。 不 过 ， 如 果 指 令 可 以 进一步 并 行 执行 的 话 ; 那么 我 们 还 能 获得 更 快 的 处 理 速 度 。 


1. 3.1 指令 级 并 行 

为 了 使 指令 可 以 并 行 执 行 ， 程 序 必须 具备 指令 级 并 行 (ILP) 性 ， 例 如 指令 之 间 具 有 一 定 
程度 上 的 独立 性 。 如 果 指 令 之 间 相 互 依赖 ， 则 它们 必须 串 行 执 行 ， 每 条 指令 必须 等 待 之 前 指令 
的 执行 结果 ， 编 译 器 必须 能 够 挖掘 出 指令 级 并 行 (ILP) ， 并 且 微 架构 也 必须 能 够 开发 和 利用 这 
一 特征 。 

图 1-11a 给 出 了 两 个 小 程序 片段 ， 左 边 的 是 计 for (iso,isr+,1023) E62 (M0.44F,1023) 


算 两 个 向 量 相 加 ， 右 边 的 是 计算 向 量 各 个 位 的 和 。 A 人 231+clil; s+=S+Ali]; 
向 量 相 加 程序 的 潜在 执行 速度 非常 快 ， 因 为 所 有 a ) 单线 程 程序 

循环 兴 代 是 相互 独立 的 ， 所 以 指令 都 可 以 同时 跨 for (i=0, i++,255) for (i=0,i++,255) 
循环 迁 代 执 行 ， 从 而 获得 1024 倍 的 提速 。 而 右边 ;Smy SA 
的 循环 并 行 是 受 限 的 ， 因 为 每 次 循环 迭代 都 依赖 b ) 多 线程 程序 ( 线程 数 为 4 ) 


于 前 一 次 循环 变量 S 的 累加 执行 结果 ， 因 此 直到 
当前 变量 S 更 新 完成 ， 才 能 执行 下 一 次 更 新 。 相 
比 于 向 量 各 位 数字 求 和 的 循环 操作 指令 级 并 行 严重 受 限 ， 向 量 相 加 的 循环 操作 却 可 以 进行 大 规 
模 的 指令 级 并 行 。 然 而 ， 如 果 两 个 循环 都 在 一 个 流水 级 较 少 或 根本 无 流水 的 简单 机 器 上 运行 ， 
我 们 将 不 会 观察 到 明显 的 加 速 ， 因 为 在 这 种 简单 的 机 器 上 ， 软 硬件 无 法 充分 利用 程序 中 的 指令 
级 并 行 性 。 

为 了 利用 向 量 相 加 循环 操作 中 的 指令 级 并 行 ， 处 理 器 〈 在 编译 器 的 辅助 下 ) 必须 能 够 同 
时 探测 大 量 的 程序 代码 ， 使 得 同一 时 间 内 可 以 调度 执行 多 个 循环 欠 代 。 在 标量 处 理 器 中 ， 指 令 
执行 可 以 在 编译 时 通过 指示 处 理 器 在 同一 时 间 取 指 、 译 码 并 执行 大 量 的 指令 而 进行 静态 调度 ，， 
也 可 以 在 执行 时 动态 地 调度 指令 执行 ， 在 这 种 情况 下 ， 硬件 必须 可 以 通过 取 指 译 码 大 量 的 指令 
来 预测 未 来 的 指令 流 ， 以 便 指令 能 尽快 执行 。 对 编写 单线 程 程序 的 程序 员 来 讲 ， 开 发 静态 或 动 
态 的 指令 级 并 行 是 透明 的 ， 指 令 级 并 行 性 的 提取 和 开发 是 由 编译 器 和 硬件 自动 完成 的 。 


1. 3.2 线程 级 并 行 


另 一 种 并 行 方 式 是 线程 级 并 行 〈TPL)， 它 将 代码 分 配给 并 行 线程 ， 这 些 线程 可 以 在 多 核 
处 理 器 或 如 图 1-4 所 示 的 多 处 理 器 系统 的 不 同 处 理 器 核 上 独立 执行 。 
图 1-11b 显示 了 一 个 四 线程 程序 中 第 一 个 线程 〈 即 thread_0) 的 简化 代码 片段 ， 它 将 向 量 


图 1-11 ILP 与 TLP 
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加 代码 直接 分 配给 4 个 线程 ， 每 个 线程 执行 1/4 的 向 量 加 ， 因 此 速度 提升 4 倍 。 向 量 各 位 数 求 
和 的 程序 也 可 以 分 配给 4 个 线程 ; 只 是 编程 上 需要 做 更 多 的 努力 ， 它 的 主要 思想 是 让 每 个 线程 
都 计算 长 度 为 256 的 向 量 的 部 分 和 ， 并 累加 到 私有 变量 my_S 上 ， 当 每 个 线程 都 执行 完 ， 各 个 
线程 的 结果 相 加 并 赋值 给 全 局 变量 S， 这 就 是 最 终 的 计算 结果 。 这 个 程序 要 求 各 个 线程 之 间 存 
在 共享 内 存 ， 以 便 所 有 线程 都 可 以 访问 全 局 变量 S。 

多 处 理 器 和 多 核 系统 的 指令 或 时 钟 是 不 同步 的 ， 线 程 在 各 自 处 理 器 核 上 独立 运行 ， 因 此 各 
线程 有 时 必须 进行 同步 以 协调 活动 或 进行 数据 交换 ， 这 通常 称 为 多 指令 多 数据 (MIMD) 系 
统 ， 以 此 强调 每 个 处 理 器 核 都 在 独立 执行 各 自 的 指令 流 。 

提取 线程 级 并 行 通常 是 程序 员 的 任务 ， 他 们 需要 设计 新 的 算法 ， 调 整 现 有 代码 以 体现 线程 
级 并 行 ， 并 负责 安排 好 线程 间 的 通信 与 同步 。 为 了 利用 多 核 处 理 器 和 多 核 系统 ， 运 行 的 负载 程 
序 必须 进行 并 行 化 ， 这 通常 意味 着 需要 重新 改写 整个 应 用 程序 。 因 此 ， 并 行程 序 的 生产 效率 是 
未 来 计算 机 系统 的 重大 挑战 之 一 。 

解决 并 行 编程 问题 的 途径 之 一 是 采用 并 行 编译 器 。 并 行 编译 器 可 以 自动 将 单线 程 程序 转 
化 成 多 线程 程序 ， 然 而 并 行 编译 器 还 存在 以 下 三 个 主要 缺陷 : 第 一 ， 并 行 编译 器 生成 的 并 
行 代码 效率 很 差 ; 第 二 ， 由 于 指针 变量 的 值 在 编译 时 是 未 知 的 ， 因 此 编译 很 容易 失败 ; 第 
三 ， 存 在 一 部 分 算法 ， 对 这 部 分 代码 进行 并 行 可 能 不 是 最 好 的 解决 方案 ， 然 而 并 行 编译 器 
却 对 其 进行 了 并 行 化 。 因 此 ,通常 只 有 按照 多 处 理 器 的 规模 裁剪 算法 和 代码 才能 获得 最 佳 
的 性 能 。 ) 


1. 3.3 向 量 和 阵列 处 理 器 


向 量 处 理 器 和 阵列 处 理 器 比 标量 处 理 器 更 善于 利用 指令 级 并 行 ， 也 更 善于 并 行 在 多 个 操作 
数 上 执行 相同 的 操作 ， 与 此 同时 ， 向 量 处 理 器 和 阵列 处 理 器 也 有 适用 于 同时 处 理 大 量 标量 操作 
数 的 向 量 指令 ， 例 如 : 


VADD VO1,VO2,VO3, 


VO1 指定 标量 运算 的 一 个 数据 流 或 向 量 。 例 如 图 1-11a 中 的 向 量 相 加 可 以 通过 一 条 向 量 指 
邻 执行， 此 时 VO1 是 A[0:1203] ，VO2 是 B[0:1203] ，V03 是 C[0:1203] 。 当 然 ， 这 种 向 量 指 
令 的 执行 可 能 需要 很 多 个 时 钟 周期 但 对 如 图 1-11a 所 示 的 程序 来 说 ， 它 的 执行 效率 可 能 是 非 
常 高 的 ， 从 而 为 利用 向 量 指令 开发 硬件 并 行 提供 了 可 能 。 

向 量 指令 可 以 在 向 量 处 理 器 或 阵列 处 理 器 上 执行 ， 这 两 种 微 架构 的 区 别 在 于 向 量 处 理 器 利 
用 流水 线 而 阵列 处 理 器 利用 并 行 来 执行 向 量 指令 ， 这 种 差异 在 图 1- 12 中 进行 了 说 明 。 在 
图 1-12a 所 示 的 向 量 处 理 器 中 ， 两 个 输入 的 向 量 操 作 数 可 能 被 存储 在 内 存 或 寄存 器 堆 中 ， 控 制 
单元 (CU) 获取 向 量 指令 并 分 配 一 个 计算 流水 线 对 所 有 的 向 量 元 素 执 行 VADD 操作 ， 向 量 运 
算 开始 后 ， 每 个 时 钟 周 期 向 量 元 素 都 会 进行 相 加 ， 直 到 1024 个 时 钟 周期 才 停止 ， 结 果 也 以 相 
同 的 速率 存储 在 内 存 或 寄存 器 中 。 

在 图 1-12b 所 示 的 阵列 处 理 器 中 有 多 个 处 理 单元 (PE) ， 每 个 处 理 单元 都 由 一 个 执行 单元 
和 一 个 本 地 存储 器 组 成 ， 并 可 以 用 本 地 存储 器 中 的 数据 执行 控制 单元 分 配 的 指令 。 两 个 输入 向 
量 被 交叉 存储 在 处 理 单元 的 存储 器 中 ， 每 个 存储 器 都 包含 各 个 输入 向 量 的 一 个 元 素 ， 控 制 单元 
广播 指令 以 在 本 地 寄存 器 中 加 载 输入 操作 数 ， 然 后 对 它们 执行 加 法 操作 ， 并 将 执行 结果 存储 回 
本 地 存储 器 ， 最 后 结果 操作 数 的 值 被 交叉 地 存储 在 处 理 单元 的 本 地 存储 器 中 。 阵 列 处 理 器 也 称 
为 单 指令 多 数据 (SIMD) 处 理 器 ， 这 反映 了 所 有 的 处 理 单元 对 各 自 的 数据 执行 相同 的 指令 操 
作 。 向 量 和 SIMD 机 器 都 能 够 利用 细 粒 度 的 指令 级 并 行 。 
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1-12 向 量 处 理 器 (a) 和 阵列 处 理 器 (b) 上 的 向 量 指令 执行 


编译 器 的 支持 对 提取 程序 并 行 性 以 及 将 循环 转化 为 向 量 代码 至 关 重 要 ， 然 而 向 量 处 理 器 已 
经 存在 很 长 时 间 ， 并 且 它 们 的 编译 器 技术 已 经 非常 成 熟 ， 即 使 是 图 1-11a 中 的 向 量 元 素 循环 求 
和 也 可 以 在 向 量 处 理 器 和 阵列 处 理 器 上 进行 向 量化 。 


1.4 性 能 


性 能 是 用 来 衡量 微 架 构 和 系统 的 最 重要 标准 ， 以 下 是 两 种 性 能 度量 标准 。 
。 执行 时 间 (也 称 为 延迟 或 响应 时 间 ) 是 过 程 由 开始 到 结束 所 对 应 的 墙 上 时 钟 经 过 的 时 
间 。 执 行 时 间 包含 过 程 执 行 中 操作 系统 花费 的 时 间 。 

。 系统 吞吐 量 是 单位 时 间 内 的 进程 执行 数量 。 

虽然 这 两 种 度量 标准 通常 是 一 致 的 〈 例 如 ,执行 时 间 越 短 ， 则 吞吐 量 越 高 )， 但 不 一 定 都 
是 如 此 。 考 虑 下 面 的 例子 ， 现 提出 两 种 将 单 处 理 器 计算 机 系统 吞吐 量 提高 一 倍 的 办 法 ， 一 种 办 
法 是 将 单个 处 理 器 的 运行 速度 提高 到 原来 的 两 倍 ， 另 一 种 办 法 是 在 原 处 理 器 基础 止 添加 第 二 个 
处 理 器 ， 使 两 个 处 理 器 都 与 原 系 统 具有 相同 的 运行 速度 。 这 两 个 系统 都 满足 吞吐 量 需求 ， 然 而 
第 一 种 办 法 比较 好 ， 因 为 它 不 仅 能 增加 一 倍 的 吞吐 量 ， 还 将 每 个 进程 的 执行 时 间 减 少 了 一 半 。 

过 去 ， 执 行 时 间 被 认为 是 衡量 性 能 的 最 终 度 量 标准 ， 然 而 随 着 多 核 处 理 器 时 代 的 到 来 ， 进 
程 〈 或 线程 ) 的 吞吐 量变 得 更 加 重要 ， 因 此 未 来 这 两 种 度量 标准 都 非常 重要 。 由 于 某 些 程序 
不 能 简单 且 高 效 地 进行 并 行 化 ， 因 此 单线 程 性 能 仍然 很 重要 ， 尤 其 是 在 比较 核心 架构 的 时 候 。 

在 基于 同步 逻辑 设计 的 处 理 器 核 上 ， 程 序 的 执行 时 间 取 决 于 三 个 影响 因素 的 乘积 : 

了 二 = I xCPLxT {Et 
其 中 IC (instruction count) 为 程序 执行 的 指令 数 ，CPI (clock per instruction) 为 机 器 执行 程序 
时 执行 每 条 指令 所 需 的 平均 时 钟 周 期 ，7. 是 机 器 的 时 钟 周 期 时 间 ， 该 公式 直接 表明 了 同步 系 
统 的 处 理 单元 是 一 个 时 钟 周期 。 

当 CPI 可 以 直接 估计 时 ， 这 个 公式 非常 有 用 。 然 而 ， 由 于 当前 复杂 的 处 理 器 和 层次 化 的 
cache 结构 ， 要 针对 每 条 指令 来 确定 CPI 是 几乎 不 可 能 的 。 事 实 上 ，CPI 不 仅 取决 于 一 条 指令 的 
执行 ， 还 取决 于 同一 时 间 执 行 的 所 有 指令 ， 因 为 这 些 指 令 执 行 是 相互 干扰 的 。 换 名 话说， 指令 
的 CPI 取决 于 它 执 行 的 上 下 文 环境 。 如 果 我 们 将 上 面 的 公式 颠倒 过 来 ， 它 仍然 有 用 : 

CET= 人 (ICx 五 ) (1:2) 

执行 时 间 和 程序 指令 数 可 以 通过 运行 程序 或 模拟 其 执行 得 到 。 对 给 定 的 时 钟 频率 和 程序 指 
令 数 来 说 , 平均 CPI 是 用 来 描述 机 器 上 程序 执行 速度 的 非常 直观 的 度量 标准 。 由 于 CPI 比 执行 
时 间 更 加 直观 ， 因 此 常 被 用 来 比较 拥有 相同 指令 集 和 相同 工艺 的 不 同体 系 结构 。 
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当 处 理 器 核 在 同一 周期 能 够 获取 并 开始 执行 多 条 指令 时 ，IPC (instruction per clock) 是 更 
方便 的 度量 标准 。 
IJPC = 1XGPI : (1.3) 
在 此 时 的 上 下 文 环境 中 ，IPC 比 CPI 更 好 ， 因 为 它 与 性 能 呈正 相关 ， 而 CPI 与 性 能 呈 负 相 
关 ， 并且 IPC 通常 是 一 个 大 于 1 的 整数 ， 而 CPI 通常 小 于 1。 
目前 处 理 器 设计 日 趋 复 杂 ， 处 理 器 可 以 改变 时 钟 频率 ， 具 有 复杂 的 cache 层次 和 微 处 理 器 
结构 ， 有 效 地 应 用 这 些 简单 的 公式 将 变 得 更 加 困难 ， 但 由 于 其 简单 ， 因 此 依旧 非常 有 价值 。 


1.4.1 基准 测试 集 


单线 程 性 能 的 最 终 度 量 标准 是 执行 时 间 ， 因 此 就 必须 决定 要 执行 的 和 程序。 显然， 比较 两 台 
机 器 的 性 能 需要 在 两 台 机 器 上 运行 相同 的 程序 ， 然 后 比较 执行 时 间 。 测 试 程序 应 该 在 源 代 码 级 
别 指 定 ， 因 为 机 器 的 性 能 也 取决 于 其 编译 器 的 质量 ， 有 些 机 器 在 设计 时 会 充分 考虑 编译 器 ， 使 
之 更 容易 对 代码 进行 优化 。 相 对 于 ISA，IC 和 IPC 更 多 地 取决 于 编译 器 ， 但 存在 的 问题 是 一 个 
体系 结构 (和 它 的 编译 器 ) 可 能 是 基于 一 个 特定 的 程序 设计 并 调试 的 ， 对 其 他 程序 来 说 性 能 
可 能 会 很 差 。 因此， 我 们 需要 采用 更 加 严格 的 标准 来 选择 能 够 代表 某 一 应 用 领域 程序 行为 的 多 
个 程序 ， 这 就 是 基准 测试 集 的 作用 。 基 准 测 试 集 可 覆盖 通用 应 用 程序 、 科 学 和 工程 应 用 程序 、 
商业 应 用 程序 (例如 ， 数 据 库 、Web 服务 器 、 在 线 交 易 处 理 )、 多 媒体 应 用 程序 ， 以 及 图 形 和 
嵌入 式 应 用 程序 等 。 

SPEC (Standard Performance Evaluation Corporation) 基准 测试 集 常 用 来 比较 个 人 电脑 、 工 作 
站 以 及 微 处 理 器 的 性 能 。SPEC 程序 集 由 两 个 子 测 试 集 构成 : 整 型 测试 集 (例如 ， 编译 器 、 数 
据 压 缩 、 语 言 解析 器 、 模 拟 仿真 等 ) 和 浮 点 测试 集 (例如 ， 偏 微分 方程 求解 器 、 图 像 等 ) 。 它 
有 两 个 用 来 总 结 和 表征 每 类 应 用 机 器 性 能 的 指标 : SPECInt 和 SPECFp。SPEC 测试 集会 不 断 进 
行 更 新 ， 这 主要 是 因为 机 器 性 能 增长 得 非常 快 。 例 如 ， 一 个 基准 测试 程序 在 设计 时 ， 典 型 的 
cache 大 小 是 .128KB ， 它 无 法 测试 拥有 4MB cache 的 微 处 理 器 的 内 存 性 能 。 因 此 随 着 时 间 的 推 
移 ， 就 出 现 了 几 代 SPEC 基准 测试 集 的 典型 代表 : SPEC89、SPEC92 、SPEC95 、SPEC2000 和 
SPEC2006 (目前 的 基准 测试 集 ) 。 基 准 测试 集 从 一 代 到 下 一 代 发 展 时 ， 既 会 删除 或 修改 一 些 程 
序 ， 也 会 加 入 一 些 新 的 程序 。 

此 外 还 有 一 些 重要 的 用 于 表征 大 型 服务 器 性 能 的 基准 测试 集 ， 其 中 包括 TPC (Transactional 
Processing Council) 基准 测试 集 。 现 存 几 类 适用 于 不 同类 型 服务 器 的 TPC 基准 测试 集 : TPC-B 
和 TPC-C 主要 用 于 在 线 事务 处 理 (OLTP)，TPC-D 和 TPC-H 主要 用 于 决策 支持 系统 (如 商业 
管理 数据 库 ) ，TPC-W 主要 用 于 Web 服务 器 。 最 后 ， 骨 入 式 系统 可 以 使 用 EEMBC 或 MiBench 
测试 集 进行 评估 ， 而 系统 的 多 媒体 功能 则 可 以 通过 MediaBench 进行 比较 。 

报告 一 组 程序 的 性 能 

现在 一 个 坷 手 的 问题 是 如 何 用 单个 性 能 数字 来 反映 _ 贡 套 测试 程序 的 性 能 ， 一 种 解决 方法 
是 取 所 有 执行 时 间 的 算术 平均 值 : 


ia 1 人 
= (1.4) 


在 这 个 公式 中 ， 执 行 时 间 最 长 的 程序 可 能 会 减弱 其 他 短程 序 的 效果 ， 而 这 些 短 程序 可 能 是 
整个 体系 结构 中 最 高 效 的 部 分 ， 加 权 平均 可 以 反映 不 同 程序 的 不 同 重要 性 。 例 如 ， 每 个 执行 时 
间 可 以 由 与 执行 指令 数 成 反比 的 影响 因子 (ww;) 或 反映 每 个 程序 执行 频率 的 影响 因子 进行 
加 权 。 
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T= yx PTxo (1.5) 

另 一 种 提高 公平 性 的 方法 是 执行 指令 数 相 同 的 样本 程序 ，Simpoints 就 是 采用 这 样 的 方法 。 
在 Simpoints 中 ， 每 个 基准 测试 程序 都 使 用 一 个 或 多 个 典型 的 执行 片段 ， 这 些 片段 包含 相同 的 
指令 数 。Simpoints 的 男 一 个 目标 是 降低 基准 测试 集 的 模拟 时 间 ， 因 为 完整 执行 这 些 基准 测试 程 
序 需 要 花费 很 长 的 时 间 。Simpoints 使 得 每 个 代表 基准 测试 程序 执行 的 片段 都 具有 相同 的 指令 
数 ， 因 此 ， 较 长 的 基准 测试 程序 也 不 会 过 度 影响 最 终 的 度量 值 。 关 于 工作 负载 采样 技术 的 内 容 
(包括 Simpoints) 都 将 在 第 9 章 中 进行 讲解 。 

报告 加 速 比 \ 

一 般 情 况 下 ， 对 于 给 定 程序 ， 被 评估 机 器 相对 于 基准 机 的 加 速 比 定义 如 下 : 

5 (1.6) 

其 中 ,Ti ,是 程序 :在 基准 机 上 的 执行 时 间 ， 是 程序 i 在 被 评估 机 器 上 的 执行 时 间 。 以 单个 性 
能 数字 来 报告 一 组 测试 标准 结果 的 常见 方法 是 计算 加 速 比 的 某 种 形式 的 平均 值 。 一 种 方法 是 计 
算 加 速 比 的 算术 平均 值 : 


1 下 
之 3 (C17) 
另 一 种 方法 是 计算 加 速 比 的 调和 平均 值 : 
二 N 
Sh = 1 
名 可 
使 用 加 速 比 的 算术 平均 值 或 调和 平均 值 都 存在 一 些 问题 ， 主 要 问题 在 于 ,在 相 比 较 的 两 台 
机 器 中 选择 不 同 的 机 器 作为 基准 机 时 ， 可 能 会 产生 不 同 的 结论 。 而 刀 何 平均 值 不 存在 这 个 问 


题 : 无 论 我 们 选择 哪个 做 基准 机 ， 两 台 机 器 之 间 的 相对 速度 始终 是 相同 的 ， 简 单 地 改变 基准 机 
的 话 不 会 得 出 机 器 相对 速度 不 同 的 结论 。 直 深 比 相 对 三 基 疹 各 的 肛 人 于 汐 信 自 不 式 给 出: 


- /11s (1.9) 
几何 平均 值 的 另 一 a 开 二 宛 和 
平均 值 ， 则 这 两 组 程序 总 加 速 比 的 几何 平均 值 可 以 由 各 组 平均 值 相 乘 得 到 ， 即 每 个 程序 对 平均 
值 的 贡献 是 独立 于 其 他 程序 的 贡献 的 ， 并 且 独 立 于 程序 的 执行 长 度 。 
通常 情况 下 ， 无 论 采取 什么 方法 来 计算 平均 值 ， 相 对 于 基准 机 的 平均 加 速 比 都 会 存在 很 多 
问题 ， 下 面 给 出 一 些 具体 的 例子 说 明 。 
GE 加 表 1-2 给 出 了 程序 A 和 程序 B 在 测试 机 1 和 测试 机 2 以 及 在 基准 机 1 和 基准 机 2 
上 的 执行 时 间 ， 使 用 执行 时 间 算术 平均 值 的 比例 和 相对 于 基准 机 1 和 基准 机 2 的 加 速 比 平均 值 、 
(算术 平均 值 、 调 和 平均 值 、 几 何平 均值 ) 来 比较 测试 机 1 和 测试 机 2。 





(1.8) 


表 1-2 两 个 程序 的 执行 时 间 














表 1-3 的 前 两 列 给 出 了 每 个 测试 机 相对 于 每 个 基准 机 的 加 速 比 ， 第 三 列 给 出 了 由 平均 执行 
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述 75 


时 间 的 比例 计算 得 到 的 加 速 比 ， 最 后 三 列 分 别 给 出 了 程序 4 和 程序 B 加 速 比 的 算术 平均 值 、 调 
和 平均 值 以 及 几何 平均 值 。 


表 1-3 ”相对 于 基准 机 1 和 基准 机 2 的 加 速 比 


BE Bo Et Sd es i Ll 
| 0 | 502 | 


首先 考虑 平均 执行 时 间 的 比例 。 测 试 机 1 以 近似 2 倍 的 比率 优 于 测试 机 2， 并 且 这 个 结论 
是 独立 于 基准 机 的 。 但 是 ， 需 要 注意 的 是 第 二 台 机 器 执行 程序 A 时 十 分 高 效 ， 但 并 没有 在 最 终 
的 算术 平均 值 上 体现 出 来 ， 这 是 因为 执行 时 间 的 算术 平均 值 是 偏向 于 最 长 执行 的 〈 程 序 B 符 
合 这 种 情况 ) 。 

如 果 度 量 标准 采用 加 速 比 的 某 种 平均 值 ， 得 到 的 结论 则 是 不 同 的 ， 在 这 种 情况 下 ， 通 常 认 
为 测试 机 2 是 优 于 测试 机 I 的 。 当 度量 标准 采用 加 速 比 的 算术 平均 值 时 ， 无 论 是 相对 于 基准 机 
1 还 是 基准 机 2， 测 试 机 2 都 是 优 于 测试 机 1 的 ， 而 相对 于 基准 机 2 的 比较 结果 显示 测试 机 2 以 
5 倍 的 比率 优 于 测试 机 1， 这 显然 与 基于 执行 时 间 的 算术 平均 数 得 到 的 结论 相 矛 盾 ; 当 度 量 标 
准 采用 加 速 比 的 调和 平均 值 时 ， 相 对 于 基准 机 1， 测 试 机 2 以 近似 4 倍 的 比率 优 于 测试 机 1， 
相对 于 基准 机 2， 测 试 机 1 只 略 优 于 测试 机 2; 当 度 量 标准 采用 加 速 比 的 几何 平均 值 时 ， 无 论 
是 相对 于 基准 机 1 还 是 基准 机 2， 测 试 机 2 都 以 近似 2. 24 的 比率 优 于 测试 机 1。 

当 度 量 标准 采用 加 速 比 的 算术 平均 值 或 调和 平均 值 时 ， 得 出 的 结论 是 依赖 于 基准 机 的 ， 而 
基于 加 速 比 的 几何 平均 值得 出 的 结论 是 独立 于 的 基准 机 的 。 但 需要 注意 的 是 ， 加 速 比 的 几何 平 
均值 与 基于 执行 时 间 的 总 和 或 加 权 总 和 得 到 的 性 能 并 不 成 正比 。 本 


1.4.2 Amdahl 定律 


Amdahl 定律 在 1967 年 由 Gene Amdahl 首次 提出 ，Gene Amdahl 是 IBM 的 工程 师 ， 他 参与 了 
IBM System/360 的 构思 与 实现 。Amdahl 定律 最 初 是 针对 并 行 体系 结构 提出 的 ， 但 它 也 适用 于 任 
何 对 计算 机 系统 性 能 的 增强 与 提高 。 除 了 计算 机 ， 它 也 适用 于 其 他 度量 ， 如 功 耗 或 可 靠 性 ， 甚 
至 包括 许多 的 人 类 活动 。Amdahl 定律 非常 简单 ， 但 过 去 凡是 忽略 了 该 定律 的 计算 机 架构 师 都 
为 此 付出 了 惨痛 代价 。 

首先 ， 我 们 来 推导 Amdahl 定律 的 最 常见 形式 。 如 图 1-13 所 示 ， 假 设 对 现 有 系统 进行 优化 
改进 ， 用 下 表示 ， 使 得 计算 占 比 为 下 的 部 分 速度 提高 了 $ 倍 ， 这 里 的 优化 既 包 含 硬件 优化 (如 
增加 了 浮 点 协 处 理 器 ) 也 包含 软件 优化 (如 新 的 编译 器 优化 ) 。 


1-F F 


应 用 优化 4 


1 一 










几何 平均 值 








测试 机 1 相 比 于 基准 机 1 
测试 机 2 相 比 于 基准 机 1 
测试 机 1 相 比 于 基准 机 2 
” 测试 机 2 相 比 于 基准 机 2 














without E 


图 1-13 Amdahl 定律 


设 7T.,. 为 执行 时 间 ， 优 化 后 总 计算 执行 时 间 如 下 : 
T (with E) = T. (without E) x [(1 - F) + F/S] (1.10) 
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通过 优化 所 获得 的 加 速 比如 下 : 
T.. (without E) 1 
speedup(E) phy tL Py Rs (1.11) 
式 (1;11) 是 Amdahl 的 加 速 比 定律 ， 从 这 个 加 速 比 定律 中 我 们 可 以 得 到 以 下 经 验 启示 。 


启示 1: 可 能 获得 的 最 大 加 速 比 受 限于 不 能 被 加 速 的 代码 部 分 ， 最 大 加 速 比 为 1/(1 -了 F)， 
这 是 一 个 残酷 的 结论 。 我 们 看 一 个 例子 ,假设 经 过 几 周 紧张 的 研究 ， 工 程 师 发 明了 一 种 计算 实 
数 正弦 函数 的 变革 性 方式 ， 这 个 发 明 十 分 巧妙 ， 它 使 计算 正弦 函数 的 执行 时 间 为 原来 的 
1/1000， 而 发 明 者 对 他 的 工作 也 感到 十 分 自豪 ， 并 申请 了 专利 。 然 而 ， 由 于 正弦 函数 在 科学 工 
作 总 执行 时 间 中 所 占 的 比例 不 到 1/1000， 因 此 他 的 发 明 带 来 的 加 速 比 小 于 1/0. 999 或 0. 19% 。 
这 个 发 明 只 有 对 专门 用 于 计算 正弦 函数 的 机 器 来 说 是 有 用 的 ， 如 果 这 样 的 机 器 非常 有 用 ， 那 么 
发 明 者 才 会 从 这 个 专利 中 获 利 。 

启示 2: 优化 常见 的 情况 。 致 力 于 提高 计算 机 系统 性 能 的 人 应 该 关注 那些 在 执行 时 占用 最 
多 时 间 的 组 件 ， 并 尽力 缩短 其 执行 时 间 。 试 图 加 速 那些 只 在 特定 执行 中 占用 较 短 时 间 的 功能 部 
件 是 徒劳 无 功 的 。 例 如 ， 在 启示 工 正弦 函数 的 例子 中 ， 更 好 的 方法 是 将 正弦 函数 作为 一 个 软件 
子 程序 来 调用 执行 ， 而 不 是 设计 专用 硬件 来 对 其 进行 加 速 。 一 般 来 说 ,存储 (cache) 访问 等 
常见 功能 是 通过 硬件 来 实现 的 ， 而 罕见 功能 则 通常 是 由 软件 来 实现 的 。 幸 运 的 是 ， 事 实证 明 最 
耗 时 的 功能 往往 都 是 简单 的 。 通 过 软件 来 实现 特定 功能 的 一 种 重要 机 制 是 异常 ， 当 硬件 需要 
软件 协助 时 ， 就 触发 一 个 异常 ， 这 个 异常 指导 处 理 器 执行 异常 处 理 程序 ， 异常 处 理 程序 扩 
展 了 硬件 的 功能 。 举 例 来 说 ,没有 必要 直接 用 硬件 来 处 理 缺 页 ， 而 且 由 硬件 来 做 的 话 其 过 
程 极 其 琐碎 和 复杂 ， 而 通过 异常 来 触发 硬件 在 内 核 中 执行 一 个 缺 页 处 理 程序 则 要 简单 和 方 
便 得 多 。 

启示 3: 收益 递减 的 规律 。 一 旦 我 们 基于 常见 情况 规则 选 定 了 某 个 候选 的 加 速 功能 ， 就 没 
有 必要 无 限制 地 投入 资源 来 提高 该 功能 的 加 速 比 。 图 1-14 给 出 了 当下 =0.5， 加 速 部 分 的 速度 
提高 倍数 $ 从 1 增加 到 10 时 ，Amdahl 定律 的 加 速 比 ， 可 以 看 到 最 大 的 加 速 比 为 2， 对 每 个 $ 值 
的 边界 加 速 收 益 和 剩余 潜在 加 速 收益 也 在 图 中 列 了 出 来 。$ 的 每 一 次 增加 都 需要 投入 额外 的 资 
源 ， 当 5 =2 时 ,获得 了 33% 的 速度 提升 ， 且 速度 再 提升 0. 66 仍然 是 可 能 的 ， 在 此 之 后 ， 对 每 
个 5 值 来 说 ,边界 加 速 收益 迅速 下 降 ， 当 5 =5 时 ,边界 加 速 收益 为 6.67% ， 而 剩余 加 速 收益 
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图 1-14 收益 递减 规律 图 解 
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为 33% 。 显 然 ， 随 着 $ 的 增加 ， 继 续 投 太 资 源 以 进一步 提高 速度 的 收益 越 来 越 少 ， 而 潜在 的 加 
速 收益 迅速 降低 到 极 值 点 ， 此 时 继续 追求 这 种 设计 收益 显然 意义 不 大 。 一 旦 获得 了 大 部 分 的 加 
速 收益 ， 计 算 机 架构 师 就 应 该 重新 评估 常见 功能 部 件 ， 并 寻找 其 他 机 器 功能 的 加 速 收益 。 

并 行 加 速 

在 一 个 多 处 理 器 系统 上 增加 处 理 器 个 数 或 在 片上 多 处 理 器 系统 中 增加 核 数 被 视 为 一 种 增强 
单 核 性 能 和 Amdahl 加 速 比 的 有 效 方法 。 在 这 种 情况 下 ， 加 速 倍数 等 于 处 理 器 或 核 的 数量 。 设 
了 为 处 理 器 或 核 的 数量 , F 是 在 P 个 处 理 器 或 核 上 可 并 行 代码 部 分 所 占 的 比例 ， 可 得 出 如 下 
公式 : 


1 1 P 1 
Sn 了 A 


可 获得 的 最 大 加 速 比 受 限于 不 能 被 并 行 化 的 代码 部 分 “(如 1 -了 )， 这 一 结论 非常 残酷 上 例 
如 : 即使 我 们 部 署 了 上 百 万 个 处 理 器 或 核 , 使 得 99% 的 执行 可 以 被 并 行 化, 整体 的 加 速 比 也 
不 可 能 超过 100。 直 观 地 说 ， 如 果 部 署 己 个 处 理 器 用 于 解决 问题 ， 假 设 运行 在 多 处 理 器 和 单 处 
理 器 系统 上 的 工作 是 相同 的 ， 则 最 大 加 速 比 应 为 P， 因 此 P 被 称 为 理想 加 速 比 。 

图 1-15 给 出 了 F=95% 时 的 不 同 加 速 曲 线 。 除 了 Amdahl 加 速 曲线 以 及 加 速 比 恒 为 20 的 最 
大 可 能 加 速 曲线 外 ， 图 中 还 列 出 了 理想 加 速 曲 线 和 一 个 经 历 增长 、 峰 值 、 下 降 全 过 程 像 炮 弹射 
击 轨迹 的 加 速 曲线 ， 而 这 种 曲线 是 通过 实践 观察 得 到 的 。 P 的 数目 持续 增加 ， 使 得 每 个 线程 的 
计算 量 减少 ， 则 并 行 带 来 的 速度 提升 被 线程 间 通 信 开 销 所 抵消 ， 这 时 就 产生 了 这 种 曲线 。 由 此 
得 出 : 当 到 达 某 个 临界 点 时 ， 如 果 继 续 添加 更 多 的 处 理 器 核 进行 计算 ， 那 么 对 处 理 器 的 性 能 是 
有 害 无 益 的 。 
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~* 最 大 加 速 比 一 a Amdahl 加 速 曲线 
一 。_ 理想 加 速 曲 线 。 “一 x 一 实际 加 速 曲线 


图 1-15 玉 =0.95 时 的 可 能 加 速 曲 线 


现在 的 问题 是 , 加速 能 否 是 超 线性 的 , 即 大 于 线性 加 速 比 为 P 的 理想 加 速 。 这 似乎 违背 了 
守恒 定律 ,然而 有 时 候 相 比 于 串 行 计算 ， 并行 计算 的 工作 量 可 以 更 少 ,实际 上 人 们 也 确实 观测 
到 了 超 线性 加 速 比 的 现象 ， 这 是 由 于 现 如 今 的 处 理 器 和 核 都 配备 了 至 少 一 级 的 cache 结构 ， 增 
加 系统 处 理 器 或 核 数 的 同时 也 增加 了 cache 存储 空间 的 总 量 。 假设 二 个 应 用 的 数据 集 非常 大 ， 
以 致 于 单 核 层次 化 的 cache 结构 容纳 不 下 ,但 当 应 用 被 分 配给 越 来 越 多 的 核 时 ， 每 个 处 理 器 访 
问 的 数据 集 就 会 减少 ， 当 每 个 处 理 器 访问 的 数据 集 可 以 由 其 cache 所 容纳 时 ， 由 于 cache 失效 
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的 减少 以 及 更 加 高 效 的 内 存 访问 ， 有 可 能 会 使 加 速 值 产 生 质 的 飞跃。 

目前 为 止 ， 我 们 实际 上 隐 含 假定 加 速 比 是 针对 某 个 给 定 算法 定义 的 ， 因 此 运行 在 多 处 理 器 
和 单 处 理 器 系统 的 计算 量 是 相同 的 。 现 在 的 问题 是 ， 加 速 比 是 否 应 当 调 整 为 在 应 用 层 进行 定 
义 , 一 个 应 用 可 以 通过 不 同 的 算法 来 实现 ,例如 整理 文件 可 以 通过 快速 排序 或 冒 泡 排序 来 完 
成 。 车 加 速 比 被 定 类 在 应 用 层 ， 当 采用 不 同 的 算法 时 ， 通 过 串 行 和 并 行 来 实现 的 计算 量 可 能 是 
不 同 的 ， 并 且 比 较 并 行 和 串 行 机 上 的 执行 时 间 会 变 得 很 困难 。 在 单 处 理 器 中 ， 最 佳 算法 是 计算 
量 最 少 的 算法 ， 因 此 ， 即 使 单 处 理 器 和 多 处 理 器 都 选择 了 最 佳 算 法 ， 所 产生 的 加 速 比 应 该 还 是 
小 于 理想 加 速 比 。 

Gustafson 定律 \ 

Amdahl 定律 经 常 遭 到 批评 ， 因 为 它 假 定 要 解决 的 问题 规模 是 固定 的 。 然 而 ， 工 作 负 载 的 
规模 和 复杂 性 往往 是 随 着 处 理 能 力 的 增长 而 增长 的 。 考 虑 到 每 一 代 新 的 片上 处 理 器 都 将 拥有 更 
多 的 核 数 ， 我 们 可 以 预期 软件 应 用 也 将 获得 相应 的 增长 。 如 果 当 前 用 户 对 系统 运行 应 用 程序 的 
速度 感到 满意 的 话 ， 那 么 进一步 提高 处 理 能 力 则 可 以 支持 更 加 复杂 的 软件 ， 在 几乎 相同 的 运行 
时 间 里 ， 提 供 更 新 的 软件 应 用 ， 从 而 进一步 提高 用 户 体验 。 换 名 话说， 随 着 核 数 的 增加 ， 假设 
在 执行 时 间 不 变 的 情况 下 ， 工 作 负 和 载 的 规模 将 逐渐 增 大 ， 而 这 一 价值 的 提升 并 非 来 自 于 更 快 的 
执行 速度 ， 而 是 来 自 于 增加 的 功能 。 

Gustafson 定律 的 观点 是 : 在 Amdahl 定律 中 ， 执 行 被 分 为 串 行 和 并 行 两 部 分 。 让 我 们 先 来 
看 看 单 处 理 器 的 机 器 ， 它 的 执行 时 间 是 s+p， 其 中 为 串 行 部 分 的 执行 时 间 ，P 为 可 并 行 部 分 
的 执行 时 间 。 现 假设 一 个 用 户 在 一 个 拥有 了 个 处 理 器 的 并 行 机 上 想 要 运行 一 个 更 大 规模 的 工作 
负载 ， 使 得 在 新 并 行 机 上 的 执行 时 间 与 原 工作 负载 在 串 行 机 上 的 执行 时 间 相 同 ， 也 即 在 并 行 机 
上 运行 新 的 、 更 大 规模 的 工作 负载 的 执行 时 间 也 是 s +p。 我 们 估计 在 单 处 理 器 机 器 上 运行 这 个 
更 大 规模 的 工作 负载 的 执行 时 间 是 s+ Pp， 隐 含 的 假设 是 串 行 执行 阶段 的 时 间 相 同 ， 且 它 与 处 
理 器 核 数 无 关 。 我 们 用 表示 并 行 执行 时 间 在 总 执行 时 间 中 所 占 的 比例 , 即 =p/(s +p)， 则 
得 出 加 速 比 的 公式 如 下 : ， 


3 人 和 及 X 忆 (1.13) 
s+p 


图 1-16 给 出 了 Amdahl 定律 和 Gustafson 定律 基于 P 等 于 100 的 多 处 理 器 的 比较 情况 ， 并 给 
出 了 随 着 可 并 行 执行 工作 负载 占 比 增加 的 函数 曲线 。Amdabl 定律 是 残酷 的 ,在 下 达到 90% 之 
120 





Se No SN SS sp 多 sd PP PP 
F (0-1) 
图 1-16 P=100 时 Amdahl 定律 和 Gustafson 定律 的 比较 
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前 ， 它 的 加 速 比 是 极 小 的 ， 当 到 达 90% 后 ， 它 的 加 速 比 快速 增长 。 另 一 方面 ， 在 Gustafson 定 
律 中 ， 加 速 比 随 着 的 变化 是 呈 线 性 增长 的 ， 因 此 在 Gustafson 模型 中 ， 更 多 的 工作 负载 可 以 
利用 拥有 100 个 处 理 器 的 多 处 理 器 。Amdahl 模型 将 失败 归结 为 并 行 架构 的 失败 ;而 Gustafson 
模型 则 更 多 地 带 给 人 们 希望 ， 告 诉 人 们 多 核 架 构 的 确 是 有 用 的 ! 


1.5 技术 挑战 


过 去 ， 在 体系 结构 设计 中 唯一 值得 权衡 的 是 成 本 ( 即 面积 ) 和 时 间 ( 即 性 能 ) 之 间 的 关 
” 系 。 如 今 ,， 设计 面临 多 个 技术 极限 的 挑战 ; 设计 问题 也 主要 是 在 多 个 技术 约束 下 实现 性 能 的 最 
大 化 ， 而 其 中 一 个 重要 的 新 约束 就 是 功 耗 。CMOS 工艺 已 达到 极限 ， 数 字 电路 设计 变 得 更 加 难 
以 驾驭 ， 连 线 延 迟 、 可 靠 性 和 设计 的 绝对 复杂 度 都 必须 在 设计 过 程 中 充分 考虑 。 虽 然 一 些 问题 
可 以 在 硬件 (电路) 层 或 软件 层 加 以 解决 ， 但 体系 结构 多 年 来 在 维持 CMOS 技术 可 行 性 方面 仍 
然 起 到 了 重要 作用 。 


1.5.1 功 耗 和 能 量 


现代 微 处 理 器 的 功 耗 主要 由 两 大 部 分 组 成 : 动态 功 耗 和 静态 (漏电 ) 功 耗 。 

动态 功 耗 

动态 功 耗 是 指 门 状态 切换 时 所 消耗 的 功 耗 。 每 个 门 的 动态 功 耗 是 由 该 门 输出 电容 充电 和 放 
电 产 生 的 ， 每 企 时 钟 周 期 电路 的 平均 动态 功 耗 由 下 式 给 出 : 

Batis CP (1. 14) 

动态 功 耗 是 由 活跃 因子 a (正比 于 门 在 一 个 周期 切换 的 平均 数 )、 门 驱动 的 总 电容 量 C、 
电源 电压 的 平方 六 以 及 时 钟 频 率 f 的 乘积 所 得 到 的 。 这 些 影响 因素 的 内 在 含义 是 很 有 用 的 ， 动 
态 功 率 正 比 于 af， 因 为 它 是 电路 中 门 状态 切换 的 频率 ， 在 电路 中 所 有 门 状态 切换 的 总 能 量 消 耗 
是 CV*/2， 此 能 量 用 于 门 所 驱动 的 电容 的 充电 和 放电 。 

在 给 定 的 电路 中 ， 时 钟 频率 随 着 电源 电压 的 提高 而 提高 ， 当 时 钟 频率 降低 时 ， 可 以 降低 电 
源 电 压 。 事 实 上 ， 如 果 时 钟 频率 上 和 电源 电压 下 同时 被 修改 ， 电 路 消耗 的 动态 功 耗 大 致 与 时 钟 
频率 的 三 次 宕 成 正比 ， 这 一 观测 结果 对 微 架构 产生 了 深远 的 影响 ， 是 对 并 行 处 理 和 并 行 架 构 今 
后 走势 的 隐 含 驱动 力 ， 而 追求 更 快 的 时 钟 电路 已 不 再 是 一 个 好 的 选择 。 

静态 ( 漏电) 功 耗 

动态 功 耗 产生 自 电路 状态 的 切换 ， 而 静态 功 耗 也 称 漏 电 功 耗 ) 在 每 个 电路 中 都 一 直 存 
在 ， 无 论 电 路 的 状态 是 否 切 换 。 

在 CMOS 中 ， 除 非 是 门 状态 切换 ， 和 否则 没有 电流 会 通过 门 开 关 ， 不 幸 的 是 ,晶体管 不 是 完 
美的 开关 ， 总 有 少量 的 电流 会 发 生 泄漏 ， 在 15 年 前 这 个 泄漏 电流 可 以 忽略 不 计 ， 但 随 着 每 代 
生产 工艺 阔 值 电压 的 降低 ， 泄 漏 越 来 越 严重 。 阔 值 电 压 是 晶体 管 关 闭 时 所 需 的 电压 ， 阔 值 漏电 
功 耗 依赖 于 阐 值 电压 与 温度 ， 具 体 关系 如 下 : 

Peskod = Vl 请 各 

漏电 功 耗 随 着 阔 值 电压 〈 仅 ) 的 降低 和 温度 (7) 的 升 高 呈 指 数 级 增长 ， 漏 电 功 耗 与 电路 
面积 和 电源 电压 成 正比 ， 但 与 时 钟 频率 和 电路 的 活跃 程度 无 关 。 

近年 来 随 着 特征 尺寸 和 物理 门 长 度 的 降低 ， 阅 下 漏电 功 耗 迅 猛 增 长 ， 现 已 超越 了 动态 功 
耗 ， 成 为 主要 的 功 耗 来 源 。 就 像 动态 功 耗 主要 由 处 理 器 核 消 耗 一 样 ， 漏 电 功 耗 则 主要 是 由 
cache 消耗 的 。 


1.5.2 可 靠 性 
为 了 在 晶体 管 沟 道中 保持 电场 强度 恒定 ， 并 避免 破坏 随 着 特征 尺寸 缩小 而 减 小 的 连接 ， 每 
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一 代 生 产 工艺 的 电源 电压 都 有 所 降低 。 此 外 ， 还 有 一 种 倾向 是 通过 降低 电源 电压 来 进一步 改善 
动态 功 耗 和 漏电 功 耗 。 存 储 在 一 个 晶体 管 中 的 电荷 量 为 .Q = C xyY， 该 电荷 量 在 每 代 新 生产 工艺 
中 都 会 显著 降低 ， 从 而 使 得 高 速 缓存 和 内 核 中 的 每 一 位 存储 都 更 容易 产生 瞬时 故障 。 有 瞬时 故障 
是 电路 故障 ， 此 时 电路 虽然 保持 功能 ,但 它 所 包含 的 值 却 是 损坏 的 。 当 存储 单元 (如 DRAM 
bit、SRAM bit、 寄 存 器 bit 或 fip-flop) 受到 高 能 粒子 撞击 时 〈 例 如 由 宇宙 射线 发 射出 的 中 子粒 
子 或 由 封装 部 件 射出 的 a 粒子 ) ， 就 会 产生 损坏 的 值 。 为 了 防止 这 样 的 错误 ，DRAM 和 SRAM 
通常 有 某 种 形式 的 误差 检测 和 校正 能 力 。 

另 一 种 类 别 的 故障 是 由 于 芯片 上 环境 变化 所 导致 的 临时 故障 ， 例 如 由 高 温 (热点 ) 引起 
的 错误 可 能 会 一 直 保 持 ， 直 到 温度 降低 为 止 。 由 于 热效应 的 维持 时 间 的 量 级 比 周期 时 间 大 ， 故 
障 设备 必须 被 禁用 ， 直 到 它 的 功能 恢复 正常 。 因 此 ， 像 瞬时 故障 ; 临时 故障 这 类 的 故障 是 非 破 
坏 性 的 。 

间 歌 性 故障 是 由 老化 所 引起 的 〈 即 随 着 时 间 的 推移 出 现 的 线路 老化 ) 。 由 于 电路 的 行为 恶 
化 ， 有 可 能 在 一 定 条 件 下 出 现 间 吹 性 故障 。 例 如 ， 它 可 能 不 再 满足 时 序 要 求 ， 这 个 问题 可 以 通 
过 增加 周期 时 间或 禁用 发 生 故 障 的 逻辑 (提供 备件 或 元 余 ) 来 解决 。 在 这 种 情况 下 ， 机 器 的 
操作 被 认为 是 安全 失效 (failsafe) 的 ， 虽 然 性 能 降低 ， 但 其 功能 是 正常 的 。 由 老化 引发 的 间歇 
性 故障 经 常 恶化 为 永久 性 故障 。 

片上 多 处 理 器 可 以 利用 丰富 的 线程 元 余 执 行 以 提高 其 可 靠 性 。 例 如 ， 两 个 元 余 的 计算 可 以 
相互 检查 ， 并 在 一 个 发 生 瞬 时 错误 时 回 深 到 故障 发 生前 的 检验 点 ， 或 三 个 元 余 线程 可 以 比较 它 
们 的 执行 结果 。 此 外 ， 在 多 核 系统 中 故障 核 可 以 被 禁用 ， 从 而 提供 了 一 种 天 然 的 退化 失效 
保护 。 


1.5.3 连 线 延 迟 


随 着 晶体 管 规模 的 减 小 ， 其 尺 才 变 得 更 小 ， 因 此 翻转 速度 变 得 更 快 。 然 而 ， 线 路 上 信和 号 
的 传播 延迟 并 没有 缩短 线路 传播 延迟 正比 于 它 的 RC 常数 ， 线 路 的 电阻 正比 于 其 长 度 和 其 
横 截 面积 的 倒数 。 随 着 每 代 工艺 的 出 现 ， 线 路 的 横 截 面积 不 断 缩 小 ， 单 位 长 度 的 电阻 迅速 
增加 。 

通常 ， 微 处 理 器 芯片 几 个 金属 层 之 间 存 在 过 孔 连接 ( 即 层 与 层 之 间 的 垂直 连接 ) 。- 不 同 的 
金属 层 具 有 不 同类 型 、 不 同 厚 度 的 导线 ， 这 些 导线 用 于 局 部 〈 层 内 )、 中 间 (一 个 模块 内 ) 以 
及 全 局 (整个 芯片 内 ) 的 通信 。 局 部 导线 短 、 横 截面 薄 ， 而 全 局 导线 长 、 横 截面 厚 。 全 局 导 
线 是 分 段 的 。 且 使 用 缓冲 器 ， 通 过 分 割 导线 ， 其 延迟 与 导线 长 度 呈 线性 相关 而 不 是 平方 关系 。 
导线 也 可 以 像 逻 辑 一 样 进行 流水 化 ， 只 要 线路 的 长 度 缩短 ， 它 的 延迟 就 会 减少 , 但 随 着 固定 长 
度 导 线 的 增长 ， 延 迟 也 在 增长 。 

对 于 连 线 延 迟 而 言 ， 流 水 级 越 深 越 好 ， 因 为 有 意义 的 通信 被 限制 在 一 个 单一 的 流水 线 或 两 
个 流水 级 之 间 。 然 而 ， 在 规定 的 时 钟 频率 下 ， 其 他 结构 的 访问 时 间 是 由 线路 延迟 控制 的 ， 例 如 ， 
cache、 寄 存 器 堆 以 及 指令 队列 等 ,除非 它们 的 访问 可 以 被 流水 化 或 它们 的 尺寸 可 以 被 缩小 到 
在 单位 时 钟 周期 内 完成 。 连 线 延 迟 的 影响 对 片上 多 处 理 器 也 是 有 利 的 ， 因 为 :CMP 中 的 通信 是 
分 层 的 : 大 多 数 通信 发 生 在 局 部 的 每 个 处 理 器 核 内 部 ， 而 全 局 `、 核 间 通 信 被 限制 于 核 间 数 据 和 
控制 信息 的 交换 。 


1.5.4 设计 复杂 度 


设计 复杂 度 与 片上 门 数 量 正 以 相同 的 速度 不 断 增 长 ， 即 每 两 年 翻 一 番 。 设 计 和 设计 验证 的 
生产 力也 由 于 更 好 的 CAD 工具 以 及 计算 机 平台 计算 能 力 的 快速 扩张 而 不 断 增长 。 然 而 ,设计 
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验证 工程 师 的 生产 力 仍 远 远 落后 于 验证 任务 的 复杂 度 ， 如今 验 证 的 成 本 和 专门 设计 验证 的 工程 
师 数量 都 在 以 极 快 的 速度 增长 ， 在 设计 一 款 新 的 芯片 的 过 程 中 ,验证 占据 了 主要 的 成 本 。 无 论 
是 在 门 级 、RTL 级 (验证 逻辑 正确 性 ) 、 核 级 (例如 存储 操作 的 正确 性 )， 还 是 在 多 核 级 ( 例 
如 同步 、 通 信 、cache 一 致 性 协议 和 存储 一 致 性 模型 )， 都 是 需要 验证 的 。 

片上 晶体 管 数量 的 增长 已 大 大 超过 了 设计 和 验证 生产 力 的 提升 ， 同 时 由 于 动态 功 耗 的 限 
制 ， 今 天 绝 大 多 数 的 片上 晶体 管 都 致力 于 存储 而 不 是 计算 。 这 些 存储 结构 包括 cache、 分 支 预 
测 器 、 存 储 缓冲 区 、 加 载 /存储 队列 、 取 指令 队列 、 保 留 栈 、 重 排序 缓冲 区 和 为 保持 cache 一 致 
性 的 目录 结构 。 从 设计 验证 的 角度 看 ， 在 芯片 设计 中 ， 增 加 存储 结构 的 规模 要 比 合并 新 罗 辑 块 
简单 得 多 ， 片 上 多 处 理 器 符合 设计 复杂 度 的 发 展 趋势 ， 因 为 多 次 复制 相同 的 结构 比 设计 一 个 大 
型 复杂 结构 要 简单 得 多 。 

设计 验证 已 经 成 为 一 个 主要 的 设计 约束 。 体 系 结构 的 设计 应 易于 验证 ， 即 “为 验证 而 设 
计 ”， 当 两 种 设计 相当 时 ， 易 于 验证 的 设计 一 定 会 更 流行 。 


1.5.5 尺寸 缩小 极限 和 CMOS 终点 


CMOS 工艺 已 经 快 达到 其 尺寸 缩小 的 极限 ， 这 就 是 所 谓 的 CMOS 终点 ， 此 时 CMOS 将 出 现 
量子 效应 。 如 图 1-6a 所 示 ， 按 照 目 前 的 趋势 发 展 下 去 ， 到 2020 年 特征 尺寸 将 进入 10nm 甚至 
更 小 ， 然而， 特征 尺寸 不 是 一 个 晶体 管 的 实际 尺寸 ， 描 述 一 代 工 艺 的 特征 尺寸 指 的 是 两 根 金属 
导线 之 间距 离 的 一 半 ( 称 为 半 节 距 )， 而 晶体 管 的 尺寸 更 小 。 例 如 ， 当 半 节 距 是 30nm 时 ， 门 
的 长 度 实际 是 15nm。30nm 时 代 将 要 来 临 ，CMOS 晶体 管 大 小 将 迅速 达到 原子 间 的 距离 范围 。 

图 1-17 显示 了 2007 年 ITRS 对 CMOS 特征 尺寸 发 展 趋势 的 预测 。 物 理 门 长 度 大 约 是 半 节 距 
的 一 半 ，2015 年 ， 门 长 度 达到 10nm， 原 子 的 半径 为 1 ~2A (1A =0.1nm)， 因 此 ，10nm 的 门 
长 度 是 一 个 原子 大 小 的 50 ~ 100 倍 。 此 时 ， 晶 体 管 沟 道中 离散 粒子 数量 的 影响 将 变 得 十 分 明 
显 ， 并 将 以 十 分 复杂 的 方式 影响 晶体 管 的 行为 ， 晶 体 管 的 行为 会 越 来 越 缺 乏 确 定性 ， 其 可 能 性 
也 会 越 来 越 多 。 晶 体 管 的 临界 尺寸 越 接 近 于 原子 尺寸 ， 晶 体 管 的 特性 越 接近 量子 物理 学 领域 的 
特性 ， 即 所 有 状态 都 是 不 确定 的 ， 二 进 制 逻辑 被 概率 性 的 状态 所 取代 ， 目 前 还 不 清楚 这 些 设备 
是 否 是 完全 可 用 的 。 
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尺寸 (nm ) 


一 和 一 特征 尺寸 ( 半 节 距 ) 
一 一 物理 门 长 度 


小 流 渤 渤 法 流 法 法 洲 法 洲 流 法 流 
年 份 
图 1-17 ITRS 对 2007 一 2022 年 CMOS 特征 尺寸 的 预测 
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习题 


1 


二 有 


1.3 


现 有 一 台 基 准 机 包含 load/store 指令 集 ， 且 浮 点 运算 指令 通过 软件 处 理 程 序 来 实现 ， 现 对 其 有 两 种 
改进 方案 。 第 一 种 改进 方案 是 增加 硬件 浮 点 运算 单元 ， 以 加 快 浮 点 运算 指令 的 执行 ， 据 估计 采用 
新 硬件 可 以 使 浮 点 指令 的 执行 时 间 变 为 原来 的 1/10。 第 二 个 改进 方案 是 增加 更 多 的 一 级 数据 cache 
来 加 快 load/store 指令 的 执行 ， 据 估计 当 使 用 与 增加 浮 点 单元 消耗 的 面积 来 增加 片上 cache 时 ，load 
和 store 指令 的 执行 速度 相对 于 基准 机 可 以 提高 2 倍 。 

分 别 用 Fs 和 FF 来 表示 浮 点 运算 指令 和 load/store 指令 执行 时 间 在 总 执行 时 间 中 所 占 的 比例 ， 且 这 
两 类 指令 在 同一 时 间 不 重 释 执行 。 vt 

(a) 当 使 用 Amdahl 加 速 比 时 ， 若 增加 浮 点 运算 单元 带 来 的 加 速 比 大 于 增加 cache 空间 带 来 的 加 速 

比 ， 则 和 F 之 间 的 关系 如 何 ? 

(b) 假设 给 定 浮 点 运算 指令 和 load/store 指令 所 占 的 比例 ， 而 不 是 Fi 和 F,， 且 给 出 了 浮 点 运算 指 

令 和 1load/store 指令 执行 所 需 的 平均 时 钟 周期 数 ， 基 于 这 些 数 据 ， 是 否 能 够 算出 哪 一 种 改进 更 

好 ? 能 够 使 用 Amdahl 定律 估计 出 两 种 改进 的 最 大 加 速 比 吗 ? 车 可 以 请 给 出 计算 结果 ， 否 则 给 

出 理由 。 

(ec) Fw 和 玉 分 别 取 何 值 时 ， 两 种 单独 部 署 的 改进 都 可 以 获得 50% 的 速度 提升 ? 
(d) 现 决定 先 部 署 浮 点 运算 单元 再 来 增加 cache 空间 ， 且 在 原 工作 负载 中 ，Fs 和 , 的 取 值 分 别 为 

30% 和 20% ， 则 通过 增加 浮 点 运算 单元 能 够 获得 的 最 大 加 速 比 是 多 少 ? 假定 增加 学 点 运算 单 

元 实现 了 理论 上 最 大 的 加 速 比 ,那么 相对 于 增加 浮 点 运算 单元 后 的 性 能 ， 增 加 cache 空间 所 能 

获得 的 最 大 加 速 比 是 多 少 ? 

一 个 多 处 理 器 计算 机 有 1024 个 处 理 器 ， 我 们 在 这 人 台 机 器 上 部 署 一 种 运算 ; 其 中 有 N 个 迭代 值 需要 
计算 ， 然 后 各 处 理 器 之 间 需 要 进行 数据 交换 ， 即 每 次 迭代 后 ， 处 理 器 在 数据 总 线 上 广播 计算 值 。 
每 次 迭代 分 两 个 阶段 进行 ， 在 第 一 个 阶段 中 ， 各 处 理 器 分 配 到 天 = WP 个 迭代 计算 ， 其 中 尸 是 计算 
所 涉及 的 处 理 器 个 数 ; 在 第 二 个 阶段 中 ,各 处 理 器 将 其 计算 结果 逐个 广播 给 其 他 处 理 器 ， 每 个 处 
理 器 需 等 待 直到 该 通信 阶段 结束 后 才能 开始 下 一 个 新 的 计算 阶段 。 假 定 7. 是 计算 一 次 迭代 所 需 的 
时 间 ，7, 是 将 计算 结果 广播 到 数据 总 线 上 所 需 的 时 间 ， 我 们 定义 计算 通信 比 R 为 7T./T,， 注 意 当 
P=1 时 ， 不 需要 进行 通信 。 

首先 ， 我 们 使 用 Amdahl 加 速 比 为 前 提 条 件 〈 即 相同 的 工作 负载 分 布 在 越 来 越 多 的 处 理 器 上 ) ， 在 
该 条 件 下 : 

(a) 对 K=1,，2,，…，1024, 计算 用 P 和 表示 的 加 速 比 函 数 。 

(b) 计算 用 P 和 RR 表 示 的 最 大 可 能 加 速 比 函数 。 

(c) 计算 用 P 和 表示 的 加 速 比 大 于 1 时 所 需 最 小 处 理 器 数 的 函数 。 

然后 ， 我 们 使 用 Gustafson 定律 为 前 提 条 件 ， 即 单 处 理 器 的 工作 负载 随 着 处 理 器 个 数 的 增长 而 
增长 ， 从 而 使 得 多 处 理 器 上 的 执行 时 间 与 单 处 理 器 上 的 执行 时 间 相 同 。 假 定单 处 理 器 的 工作 负载 
是 1024 次 迭代 计算 。 

(d) 当 使 用 PP 个 处 理 器 时 ， 工 作 负 和 载 是 多 少 ( 即 多 少 次 迭代 计算 )? 请 用 包含 P 和 尺 的 函数 来 表 

示 ， 并 选择 最 接近 的 整数 作为 迭代 次 数 。 ， 

(e) 在 增加 工作 负载 的 情况 下 ， 依 据 Gustafson 定律 重新 考虑 上 面 的 问题 (a) ~ (ce)。 

最 后 ,我 们 考虑 总 线 广播 计算 值 所 需 的 开销 ， 由 于 软件 和 总 线 协 议 的 开销 ， 每 个 总 线 传输 都 
需要 一 个 固定 的 时 间 ， 它 独立 于 传输 数据 的 规模 ， 因 此 各 处 理 器 每 次 迭代 结束 时 在 总 线 上 广播 上 个 
迭代 结果 的 时 间 开 销 是 To+KxTis 
(f) 假设 使 用 固定 规模 的 工作 负载 (如 Amdahl 定律 ) ， 最 大 可 能 加 速 比 是 多 少 ? 

(g) 假设 工作 负载 规模 增加 (如 Gustafson 定律 ) ， 最 大 可 能 加 速 比 是 多 少 ? 
本 题 是 关于 报告 一 组 程序 或 基准 测试 集 平均 加 速 比 的 ,我 们 考虑 4 种 报告 多 个 程序 平均 加 速 比 的 
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方法 : 

。 取 平均 执行 时 间 的 比例 ，$i 

。 取 加 速 比 的 算术 平均 值 ，5， 

。 取 加 速 比 的 调和 平均 值 ，5， 

。 取 加 速 比 的 几何 平均 值 ，5。 

考虑 习题 1. 1 中 基于 基准 机 的 两 种 改进 方案 ， 一 种 是 增加 浮 点 性 能 ， 另 一 种 是 增加 存储 性 能 ， 现 通 
过 三 个 程序 对 其 进行 模拟 : 一 个 没有 浮 点 运算 (程序 1)， 一 个 由 浮 点 运算 占 主导 地 位 (程序 2)， 
最 后 一 个 在 存储 访问 和 浮 点 运算 之 间 保 持 一 定 程度 的 平衡 (程序 3)。 每 个 程序 在 三 台 机 器 上 的 执 
行 时 间 由 表 1-4 给 出 


表 1-4 三 个 程序 的 执行 时 间 





基准 机 上 增加 浮 点 单元 
基准 机 上 增加 cache 存储 





(a) 计算 各 改进 方案 相对 于 基准 机 的 平均 加 速 比 ， 如 果 仅 单独 考虑 各 平均 加 速 比 ， 哪 个 改进 方案 
是 最 好 的 ? 

(b) 为 了 去 除 由 于 执行 时 间 不 同 所 带 来 的 偏差 ， 我 们 首先 将 基准 机 的 执行 时 间 规 格 化 为 1， 表 1-5 
列 出 了 规格 化 的 执行 时 间 ， 分 别 计算 两 种 改进 方案 相对 于 基准 机 的 4 类 平均 加 速 比 ， 如 果 仅 
单独 考虑 各 平均 加 速 比 ， 哪 个 改进 方案 是 最 好 的 ? 

表 1-5 三 个 程序 的 规格 化 执行 时 间 
机 器 
基准 机 
基准 机 上 增加 浮 点 单元 
基准 机 上 增加 cache 存储 





在 一 台 主 频 为 100MHz 的 机 器 ML 上 ， 观 测 到 整数 基准 测试 中 20% 的 计算 时 间 都 花 在 了 Multiply 

(4，B，C) 子 程序 上 ， 这 个 子 程序 完成 了 整数 4 和 了 的 相 乘 ， 并 将 乘积 赋 给 C。 此 外 ， 每 次 调用 

执行 Multiply 子 程序 需要 800 个 时 钟 周 期 。 为 提高 程序 的 执行 速度 ， 提 出 了 一 种 用 于 在 整数 基准 测 

试 中 提高 机 器 性 能 的 新 指令 MULT， 如 果 有 足够 的 数据 ， 请 回答 下 列 问题 ， 如 果 没 有 足够 的 数据 ， 

仅 回答 “没有 足够 的 数据 "。 

(a) 在 这 组 程序 中 ，Multiply 子 程序 执行 了 多 少 次 ? 

(b) M2 是 一 种 实现 了 MULT 指令 的 新 机 器 ，MULT 执行 乘法 需要 40 个 时 钟 周期 (相对 于 M1 执行 
需 800 个 时 钟 周期 的 改进 ) ， 除 了 乘法 ， 所 有 不 包含 在 Multiply 子 程序 中 的 指令 在 机 器 MI 和 
M2 上 的 CPI 都 是 相同 的 ， 由 于 增加 了 复杂 性 ，M2 的 时 钟 频率 是 80MHz， 请 问 MI 比 M2 快 
( 慢 ) 多 少 ? 

(e) 在 机 器 M3 上 ， 设计 并 模拟 了 MULT 指令 更 快 的 硬件 实现 ， 时 钟 频率 也 是 80MHz。 据 观测 相对 
于 M1，M3 的 速度 提高 了 10% ,请 问 这 有 可 能 么 ? 或 者 在 模拟 过 程 中 是 不 是 存在 错误 ? 如 果 
可 能 的 话 ，MULT 指令 在 这 个 新 机 器 上 执行 需要 多 少 个 时 钟 周期 ? 如果 不 可 能 ， 请 说 明 原因 。 

本 题 我 们 比较 两 种 条 件 分 支 指令 。 首 先 ， 我 们 看 MIPS 指令 集中 的 BEQ 指令 (详细 资料 请 参考 第 3 

章 ) ， 该 指令 通常 与 SLT 指令 一 起 使 用 ， 例 如 下 面 代码 中 当 RI 存储 的 值 小 于 R2 存储 的 值 时 ， 产 生 

他 朗 。 


SET R37R1l,R2 /如 果 R1<R2， 则 R3 设 置 为 1 ， 否 则 R3 设 置 为 0 
BNEZ R3,target / 当 R3 中 的 值 不 为 0 时 ， 跳 转 到 目标 位 置 
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此 时 需要 两 条 指令 。 此 外 ， 我 们 也 可 以 使 用 既 能 测试 条 件 又 能 执行 分 支 跳 转 的 分 支 指令 ， 这 种 方 

法 可 以 节省 一 个 算术 /逻辑 指令 ,但 它 也 更 复杂 ， 因 此 执行 周期 更 长 ， 例 如 : 

BLT R1,R2,target /如 果 R2<R1 ， 跳 转 到 目标 位 置 

有 些 人 建议 类 似 BLT 的 指令 (如 BGE、BGT 等 ) 应 当 被 添加 到 MIPS 指令 集中 。 

(a) 首先 考虑 只 包含 BEQZ 和 BNEZ 的 基准 机 ， 请 根据 表 1-6 列 出 的 动态 指令 组 合 比例 计算 平 
均 CPI。 


表 1-6 基准 机 中 的 动态 指令 组 合 








指令 出 现 频率 执行 周期 数 
算术 /逻辑 指令 40% 1 
取 娄 人 
存 数 指令 10% 1 
分 支 指令 《不 归 轩 ' 
分 支 指令 (中转 ) ; 
其 他 指 人 es ' 


(b) 添加 BLT 型 分 支 指令 后 ， 时 钟 周 期 提高 了 5% ， 但 编译 器 能 够 去 除 与 分 支 相关 的 50% 的 SLT 
指令 ， 请 计算 新 的 平均 CPI。 

(c) 请 问 添加 BLT 型 指令 是 否 是 一 个 好 主意 ? 

假定 基准 微 处 理 器 以 如 下 方式 进行 改进 : 

(1) 为 构建 一 个 16 路 的 CMP， 处 理 器 核 被 复制 了 16 次 。 

(2) 每 个 处 理 器 核 添加 一 个 浮 点 协 处 理 器 ,， 这 个 协 处 理 器 使 得 每 个 核 的 浮 点 运算 速度 都 提升 了 4 
倍 ， 当 浮 点 协 处 理 器 活路 时， 主 核 处 于 空闲 状态 ， 且 协 处 理 器 的 存在 并 不 影响 非 浮 点 运算 指 
令 的 执行 。 

在 新 机 器 上 ， 观 测 到 如 下 现象 ; 

(1) 在 每 个 核 的 执行 时 间 中 ， 有 30% 的 时 间 用 在 浮 点 协 处 理 器 上 。 : 

(2) 在 总 执行 过 程 的 25% 的 时 间 里 ， 只 有 一 个 处 理 器 核 活跃 ， 在 其 他 的 75% 的 时 间 里 ， 有 4 个 核 
活跃 。 

请 问 与 基准 机 相 比 ， 新 机 器 的 加 速 比 是 多 少 ? 
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工艺 及 其 影响 


“2.1 概述 


工艺 在 计算 机 系统 结构 的 演变 中 一 直 扮 演 着 非常 重要 的 角色 。 工艺 的 进步 促进 了 芯片 结构 
的 快速 革新 ， 本 章 中 将 分 析 由 性 能 、 功 耗 和 可 靠 性 这 三 个 方面 的 需求 驱动 带 来 的 结构 革新 。 过 
去 ， 体 系 结构 被 性 价 比 左右 ， 数 个 著名 的 结构 设计 得 益 于 某 些 工艺 参数 的 不 均衡 发 展 。 比 如 ， 
片上 缓存 (cache) 就 是 当 处 理 器 速度 远 超过 主 存 ( main memory) 读 写 速度 时 的 产物 ; 近年 
来 ， 功 耗 则 成 为 架构 设计 的 主要 约束 。 从 微 处 理 器 发 明 以 来 ， 芯 片面 积 和 晶体 管 密度 不 断 增 
加 ， 使 得 时 钟 频 率 得 以 呈 指 数 倍 提升 ， 甚 至 实现 了 更 为 复杂 的 电路 设计 。 然 而 ， 当 芯片 供电 电 
压 接近 下 限 ， 且 功 耗 问 题 令 人 担忧 之 时 ， 为 了 控制 功 耗 增长 ， 芯 片 结构 的 设计 方法 从 单个 高 频 
处 理 器 结构 转变 为 片上 多 处 理 器 结构 。 这 种 从 单 处 理 器 到 多 处 理 器 的 微 结构 转变 是 由 工艺 进步 
引发 的 变革 。 同 时 ， 处 理 器 的 可 靠 性 一 直 是 高 端 服务 器 系统 的 关键 问题 。 由 于 晶体 管 的 特征 义 
十 随 着 时 间 推 移 而 不 断 缩 小 ， 它 们 对 瞬时 故障 也 更 加 敏感 。 因 此 引入 抗 辐 射 设 计 来 保护 计算 系 
统 免 受 由 单 粒 子 翻转 引起 的 软 错误 影响 。 

这 些 例 子 说 明 工 艺 对 计算 机 设计 带 来 的 影响 ， 了 理解 基本 的 工艺 参数 和 特征 以 及 每 代 工艺 
的 更 新 对 读者 来 说 非常 重要 。 这 些 知识 可 以 帮助 读者 更 好 地 领会 在 这 本 书 的 余下 部 分 对 结构 设 
计 的 深入 讨论 。 此 外 ， 在 未 来 ， 计 算 机 设计 者 将 应 对 更 多 的 由 于 片上 特征 尺寸 不 断 缩 小 而 导致 
的 更 加 严峻 的 工艺 挑战 。 同 时 ,这 些 挑战 也 给 计算 机 体系 结构 设计 带 来 新 的 创新 机 遇 。 这 些 挑 
战 将 需要 在 各 级 软件 /硬件 结构 中 有 重大 突破 ， 包 括 系统 和 应 用 层 软 件 、 体 系 结构 、 电 路 和 材 
料 科学 等 。 

在 这 一 章 里 ,我 们 从 介绍 一 个 晶体 管 如何 工 作 开 始 。 这 部 分 可 以 作为 有 MOS 知识 背景 的 
读者 的 复习 资料 ， 也 可 作为 不 熟悉 电气 工程 的 读者 的 初级 读物 。 一旦 建立 起 来 对 CMOS 门 的 工 
作 原 理 和 参数 的 认识 ,我 们 就 可 以 描述 每 次 晶体 管 工艺 尺寸 变更 下 的 物理 和 电学 特性 。 物 理 尺 
才 显 著 影响 晶体 管 的 电气 特性 。 器 件 尺寸 变化 的 明显 优势 是 每 次 更 新 换代 时 晶体 管 密度 增加 ， 
为 计算 机 设计 师 提供 越 来 越 多 的 可 用 电路 。 如 果 电 源 电 压 与 特征 尺寸 一 样 按 比例 缩小 ， 那 么 每 
个 晶体 管 的 动态 功 耗 降低 ， 或 者 每 单位 面积 的 动态 功 耗 在 换代 过 程 中 保持 恒定 。 动 态 功 耗 是 电 
路 从 一 个 状态 转换 到 男 一 种 状态 时 所 发 生 的 能 量 开销 。 除 了 动态 功 耗 ， 由 于 电路 漏电 导致 的 静 
态 功 耗 也 随 着 工艺 变更 迅速 增长 。: 不 论 状态 是 否 切换 ,电路 都 会 有 漏电 流 。 静 态 功 耗 与 电路 所 
占用 的 面积 成 正比 。 在 本 章 中 ,我们 解释 了 动态 功 耗 和 静态 功 耗 的 基本 方程 及 其 整个 耗 电 过 程 
对 电路 产生 的 性 能 影响 。 功 耗 问题 已 成 为 近年 来 设计 师 要 面临 的 主要 挑战 之 一 。 因 此 ， 每 单位 
功 耗 所 能 提供 的 性 能 成 为 评判 系统 结构 创新 的 一 个 新 的 衡量 标准 。 动 态 功 耗 可 以 通过 并 行 或 流 
水 操作 以 及 关 掉 不 使 用 的 模块 来 减少 。 同 样 ， 供 电 电 压 对 动态 功 耗 也 有 着 最 显著 影响 。 这些 电 
源 管理 方法 都 将 在 本 章 阐述 。 

本 章 的 第 二 部 分 探讨 了 一 个 新 兴 的 设计 问题 ， 即 极 小 尺寸 器 件 的 可 靠 性 问题 。 由 于 晶体 管 
尺 才 缩小 到 了 比 用 来 蚀刻 电路 的 光波 还 短 ; 制造 不 精确 正 变 得 愈 发 常见 。 制 造 不 精确 导致 芯片 
内 (within-die) 和 芯片 间 (die-die) 的 电路 特性 差异 明显 。 此 外 由 于 物理 尺寸 缩水 到 纳米 范 
围 ， 当 电流 密度 极 高 时 ， 器 件 老化 速度 极 高 。 制 造 不 精确 和 快速 老化 导致 多 种 形态 的 设备 故 
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障 。 在 本 章 中 ， 我 们 介绍 几 种 突出 的 失效 机 制 : 瞬时 故障 、 负 偏 置 温度 不 稳定 性 (NBTI) 、 电 
迁移 效应 (EM) 和 时 间 依 赖 性 的 介质 击 穿 (TDDB) 。 
本 章 涉及 的 主题 有 : 
。 2.2 节 和 2.3 节 主 要 介绍 电学 基本 定律 、MOS 晶体 管 和 CMOS 门 电路 的 特点 。 
。 2.4 节 主要 介绍 集成 电路 工艺 尺寸 进步 对 电路 性 能 的 影响 。 
。 2.5 节 主 要 介绍 功 耗 和 能 耗 ， 包 括 动态 和 静态 功 耗 方程 ， 在 电路 层 和 结构 层 降 低 功 耗 
的 技术 ， 功 耗 和 能 耗 相关 的 度量 。 
。 2.6 节 主 要 介绍 可 靠 性 概念 ， 包 括 错误 的 分 类 一 一 可 检测 不 可 恢复 错误 (DUE)， 静 默 
数据 损坏 (SDC)， 瞬 时 错误 及 其 处 理 方 法 ,错误 保护 码 ， 可 靠 性 度量 方法 ， 间 吹 性 故 
障 的 物理 原因 (EM，NBTI 和 TDDB)， 永久 性 故障 ， 工艺 变 化 的 影响 等 。 


2.2 电学 基本 定律 


电流 是 由 动态 (流动 ) 或 静态 (存储 ) 电荷 (charge，Q) 产生 的 。 电 荷 有 正 负 两 种 ， 负 
电荷 是 由 电子 的 积累 形成 的 ， 正 电荷 是 由 于 电子 缺失 形成 的 。 相 同 极 性 的 电荷 (+ 和 + ，- 和 
- ) 相互 排斥 ， 极 性 相反 的 电荷 ( + 和 一 ) 互相 吸引 。 电 荷 可 以 存储 在 电容 器 或 电池 中 。 

一 个 电荷 在 其 周围 产生 电场 (E)。 电 场 会 向 周围 的 电荷 产生 作用 力 ， 并 可 以 将 电荷 从 一 
个 点 移动 到 另 一 个 点 ， 从 而 产生 电流 (了 站。 电场 方向 是 电场 中 正 电 荷 移动 的 方向 。 电 流 是 由 电 
场 驱 动 电荷 的 流动 形成 的 。 电 流 的 单位 是 安培 (ampere，A)。 电 流 可 以 在 导体 (conductor) 内 
自由 流动 ， 例 如 金属 。 大 多 数 固体 是 绝缘 体 (insulator) ， 绝 缘 体能 在 巨大 的 电场 中 不 产生 任何 
电荷 或 电流 。 半 导体 (semiconduetor) ， 例 如 硅 ， 是 独特 的 ， 因 为 它们 可 以 有 时 表现 出 导体 的 
特性 ， 有 时 表现 出 绝缘 体 的 特性 。 电 荷 和 电流 之 间 的 关系 由 下 式 给 出 : 

dQ = 1T(2) dt (2::1) 

当 电荷 受到 电场 的 作用 时 ， 它 就 具有 能 量 ， 称 为 电势 。 电 势 是 电场 的 积分 ， 两 点 之 间 的 电 
势 差 被 称 为 电压 (voltage, V)。 因 而 电压 是 每 单位 电荷 的 势能 的 差 。 电 势 和 电压 的 测量 单位 均 
为 伏特 (volt，V)。 

每 当 电流 了 在 电压 了 的 作用 下 流 过 两 点 之 间 ， 都 会 产生 功 耗 。 功 耗 的 计算 公式 是 已 = 太 
( 即 电 荷 流 过 电位 差 的 量 )。 功 耗 的 单位 是 瓦特 (watt，W)。 能 是 功 耗 经 过 一 段 时 间 的 积分 。 


2.2.1 欧姆 定律 
欧姆 定律 涉及 电流 和 电压 。 在 它 的 一 般 形式 中 ,欧姆 定律 说 明 电 压 和 整个 负载 电流 成 
正比 : . 
太 = (2.2) 
其 中 2 为 负载 阻抗 (impedance)。 电 阻 和 电容 是 阻抗 的 两 个 例子 。 


2.2.2 电阻 


如 果 负 和 载 为 纯 电 阻 ， 则 阻抗 称 为 电阻 (resistance)s 该 电阻 取决 于 构成 该 负载 材料 的 电导 
率 (或 电阻 率 ): 
Z=R=pi (2.3) 
其 中 占 是 导体 的 长 度 ，WH 是 在 导体 ( 宽 x 高 ) 的 截面 积 , p 是 电阻 率 。 在 VLSI 电路 中 线 是 主 
要 的 电阻 性 的 电路 元 件 。 
电阻 的 功 耗 由 下 式 给 出 : 
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P=V= RI (2.4) 


2.2.3 电容 


电容 是 一 种 可 以 存储 和 保持 电荷 的 器 件 。 它 是 由 两 个 电极 板 组 成 ， 两 个 电极 板 之 间 用 被 称 
作 电 介质 (dielectric) 的 绝缘 体 隔 开 。 电 荷 正 比 于 施加 到 电极 板 上 的 电压 : 
OCF (2.5) 
其 中 C 是 电容 。 电 容 的 通 式 是 : 


C= re (2.6) 


其 中 : 4 为 极 板 的 面积 ;2 为 平板 间 的 距离 ，so 是 在 真空 或 自由 空间 的 介 电 常 数 ，x 是 两 板 之 
间 的 绝缘 体 的 相对 介 电 常数 或 介 电 常 数 。 二 氧化 硅 (CMOS 中 的 电容 器 所 使 用 的 材料 ) 的 介 电 
常数 一 般 为 x =3.9。 

在 电压 为 V 的 条 件 下 ， 电 容 C 存储 的 能 量 为 : 


p= CV (2.7) 


在 VLSI 电路 中 ,动态 功 耗 大 多 花 在 与 所 有 组 件 (晶体 管 和 线路 ) 有 关 的 电容 充电 和 放 
电 上 。 

当 施加 到 电容 上 的 电压 值 发 生 改 变 时 ， 存 储 在 电容 器 上 的 电荷 不 能 瞬时 改变 ， 因 为 必须 由 
电流 从 电源 流 至 电容 器 来 改变 它 。 这 个 电流 流 经 一 个 〈 可 能 是 寄生 ) 电阻 器 (电阻 值 R)。 如 
果 没 有 电阻 ， 电 容 会 瞬间 充电 。 因 为 与 电容 串联 的 电阻 器 的 影响 ， 在 电容 器 中 存储 的 电荷 数 将 
与 时 间 常 数 RC 按 指数 变化 。 电 容 组 件 的 电压 不 会 瞬间 改变 ， 而 是 以 指数 变化 ， 具 有 陡峭 的 初 
始 斜 率 ， 接 着 渐渐 变 缓 。 该 RC 延迟 (不 是 光速 ) 在 VLSI 电路 中 决定 了 延迟 和 切换 速度 。 

每 一 个 电路 元 件 都 有 与 之 关联 的 一 些 电容 。 例 如 ， 导 线 具 有 电容 ， 门 电路 有 输入 和 输出 电 
容 。 在 两 条 接近 的 电线 之 间 也 存在 着 交叉 电容 。 


2.3 MOSFET 晶体 管 和 :CMOS 反 相 器 


场 效应 晶体 管 (FET) -是 电子 开关 ; 它 具 有 三 个 主要 的 输 大 : 栅 极 ;` 源 极 和 漏 极 。 栅 极 和 
源 极 之 间 的 电压 可 以 控制 源 极 和 栅 极 之 间 是 否 有 电流 流动 。 金属 氧化 物 硅 场 效 应 晶体 管 
(MOSFET) 是 使 用 电容 器 将 控制 栅 极 的 电压 转移 的 FET。 

要 了 解 MOSFET 首先 必须 了 解 由 电容 控制 器 件 构成 的 基本 的 MOS 器 件 。 这 种 电容 器 的 电 
介质 《绝缘 体 ) 是 由 二 氧化 硅 〈Si0,) 构成 的 。 电 容器 的 两 个 极 板 一 侧 是 由 多 唱 硅 (导体 ) 
栅 极 制 成 ， 另 一 侧 是 衬 底 ， 如 图 2-1a 所 示 。 衬 底 由 掺 杂 硅 制 成 。 掺 杂 是 通过 向 硅 内 注入 ( 扩 
散 ) 掺 杂 剂 形成 的 。 这 两 种 类 型 的 掺 杂 剂 分 别 是 p 型 和 nn 型。 在 p 型 衬 底 上 的 多 数 载 流 子 是 正 
的 。 正 的 载 流 子 是 吸引 电子 的 空 穴 。 在 nm 型 衬 底 上 的 多 数 载 流 子 是 负 的 (电子 )。 少 数 载 流 子 
在 衬 底 的 数量 比 多 数 载 流 子 的 数量 少 几 个 数量 级 。 

图 2-1 中 , b、e 和 d 表 明了 栅 极 电压 如 何 控 制 载 流 子 在 p 型 衬 底 中 的 分 布 。 当 栅 极 电压 为 
负 时 ， 栅 极 充满 了 负电 荷 (电子 ) ， 从 衬 底 吸引 大 量 ( 正 的 ) 载 流 子 (图 2-1b)。 如 图 2-1lc 所 
示 ， 栅 极 电压 略 大 于 零 ， 此 时 栅 极 带 些许 正 电 荷 。 栅 极 电荷 排斥 了 在 衬 底 上 的 大 多 数 ( 正 的 ) 
载 流 子 ， 从 而 形成 机 下 的 未 尽 区 (depletion)。 当 栅 极 电压 进 ~= 步 增 大 ， 大 于 阅 值 电压 (thresh: 
old voltage，V,) 时 ， 少 数 载 流 子 (电子 ) 在 衬 底 接近 栅 极 附近 聚集 ， 而 多 数 载 流 子 被 排斥 到 
远离 栅 极 的 方向 。 电 子 在 栅 极 下 形成 一 层 薄 的 到 转 层 〈inversion) ， 它 可 以 作为 电子 导电 沟 道 。 
实际 上 ， 栅 极 的 材料 变 为 n 型 而 不 是 p 型 。 反 转 层 的 厚度 和 电导 率 随 栅 电压 的 增加 而 增加 < 
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9 Ve=0 
b )Vs<0 ce)0< Ve<Vn 


图 2-1 ,由 栅 极 电压 控制 的 MOS 设备 


在 na 型 衬 底 中 也 可 以 观察 到 类 似 的 行为 。 在 这 种 情况 下 ， 多 数 载 流 子 是 电子 ， 栅 极 电 压 为 
负 ， 从 而 形成 耗 尽 区 。 一 旦 栅 极 电压 小 于 【 负 ) 国 值 电压 时 ， 由 邻近 栅 极 的 正 电荷 作为 一 个 
导电 沟 道 形成 反 转 层 。 从 现在 开始 ， 我 们 专注 介绍 nMOS 晶体 管 ， 即 衬 底 为 5 型 的 晶体 管 。 

通过 nMOS 晶体 管 的 电流 是 由 栅 极 电压 控制 的 ， 顶 极 电压 可 以 穿 过 氧化 层 决 定 导 电 沟 道 的 
厚度 ， 如 图 2-2 所 示 。 两 个 被 称 为 源 极 和 漏 极 的 重 摊 杂 n 型 区 放置 在 MOS 器 件 的 p 型 衬 底 的 两 
侧 ， 如 图 2-1a 所 示 。 





”p- 型 掺 杂 硅 基 


Ve 


图 2-2 nMOS MOSFET 


假设 源 极 和 衬 底 都 接地 。 当 Vos ( 即 Ve 一 V) 为 负 时 ， 源 极 和 漏 极 之 间 的 空间 被 正 的 多 数 
载 流 子 填充 。 没 有 电流 在 源 极 和 漏 极 之 间 流 动 ， 因 为 源 极 产生 电子 和 两 磁极 之 间 的 多 数 载 流 子 、 
都 是 正 电 荷 。 然 而 ， 如 图 2-1d 所 示 ， 如 果 Vs > 亢 ， 少 数 载 流 子 被 吸引 到 栅 极 ， 在 栅 极 下 由 电 
子 形成 反 转 层 ， 在 源 极 和 漏 极 之 间 形 成 由 少数 载 流 子 〈 即 电子 ) 构成 的 导电 沟 道 。 

当 Vos > VV， 在 漏 极 和 源 极 之 间 的 正 电 位 在 沟 道 产生 纵向 电场 ， 其 中 电子 从 源 极 移动 到 漏 
极 ( 即 电流 从 漏 极 流向 源 极 )。 沟 道成 为 栅 极 电 压 控制 下 的 阻抗 路 径 。 栅 极 电 压 越 高 ， 则 电子 
层 越 深 ， 沟 道 的 电阻 越 小 。 在 源 极 和 漏 极 之 间 施 加 一 个 正 电 压 Vvs， 在 它们 之 间 就 会 产生 电流 。 
电流 大 小 与 克成 比例 。 

当 漏 极 接地 时 沟 道 如 图 2-3a 所 示 。 当 漏 极 至 源 极 电压 增加 时 ， 漏 极 和 源 极 之 间 的 电流 1 
线性 增加 ,但 同时 ， 栅 极 到 漏 极 电压 Ves 减 小 (V6 = Ves 一 Vos)s 在 某 二 时刻;Yeo 变 得 小 于 图 
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值 电压 。 这 时 ， 沟 道 在 漏 极 被 “ 夹 断 "”。 若 ms 进一步 增 大 ， 夹 断 点 会 向 源 极 移动 ， 并 且 沟 道 从 
漏 极 后 退 ， 如 图 2-3b 所 示 。 跨 过 沟 道 从 夹 断 点 到 源 极 的 电压 ,在 Vos 增 加 时 Vis, = Tcs 一 Vs， 
并 且 电流 10s .保持 恒定 ， 不 依赖 于 漏 极 到 源 极 的 电压 。 





a)jVes>Vin 且 Wbs=0 x a)Ves>Vn 且 Vbps>Vn 
图 2-3 栅 极 电压 和 漏 极 电压 在 沟 道 的 作用 


总 之 ，MOSFET 晶体 管 具 有 三 个 操作 区 域 : 

。 截止 ( 阐 下 ) 区 , 没有 电流 可 以 在 漏 极 和 源 极 之 间 流 动 (Ves < Vs)。 

。 线性 区 ， 其 中 Lbs 随 着 Vis 线 性 增加 (Vos > Vs 目 Ves -Vos > Vs,)。 

。 饱和 区 ， 其 中 10s 保持 不 变 (Ves > Vs 自 res -Vos < Vs)。 

在 线性 区 , ' 当 Vos 小 于 Vos 时 ， 漏 极 和 源 极 之 间 的 电流 由 下 式 给 出 

Lns SB(Ves — Vr) Vos (2. 8) 

其 中 B=jC。( W/L) 被 称 为 晶体 管 的 增益 , 凡是 电子 的 迁移 率 。 在 线性 区 中 ， 沟 道中 的 电流 与 
沟 道 两 端的 电压 成 正比 ， 并 且 比 例 因 子 取决 于 栅 极 到 源 极 的 电压 。 因 此 ， 在 该 线性 区 中 ， 栅 极 
扮演 着 阻抗 的 角色 ， 其 阻 值 由 栅 极 到 源 极 电压 的 控制 。 

当 Vos 达到 Vis ,时 沟 道 被 夹 断 ， 并 在 整个 沟 道 的 电压 保持 在 Ps = Ves -Vs 饱和 电流 由 
下 式 给 出 : 


1ps ~ (Ve 一 了 (2.9) 
因为 Vs 是 0V 或 Vi。( 其 中 ,Vi 是 电源 电压 )， 所 以 上 述 饱 和 电流 的 方程 为 变 为 
Ie. ~ 生 Va — Vi)” (2. 10) 


在 饱和 模式 下 ， 晶 体 管 充当 漏 极 到 源 极 之 间 的 电流 源 ， 并 且 与 栅 极 到 源 极 之 间 的 电压 的 二 
次 方 成 正比 。 

PMOS 晶体 管 具有 类 似 的 特性 ， 不 同 之 处 在 于 基底 是 n 型 (多 数 载 流 子 是 电子 ) 。 a 
负 栅 极 电 压低 于 〈 负 ) 阔 值 电压 ， 形 成 一 个 正 电荷 沟 道 。 

nMOS 和 pMOS 晶体 管 可 作为 通过 栅 极 电压 控制 的 开关 。 在 nMOS 晶体 管 ， 当 棚 极 到 源 极 
电压 小 于 阔 值 电压 时 ， 不 论 记 : 的 值 为 多 大 ， 在 漏 极 和 源 极 之 间 都 没有 电流 流动 ， 此 时 衬 底 充 
当 了 绝缘 体 。 当 栅 源 电压 比 阔 值 电压 高 时 ， 电 流 可 以 在 漏 极 和 源 极 之 间 流 动 。 这 个 电流 的 强度 
取决 于 栅 源 电压 。 

问题 在 于 ， 当 开关 导 通 时 ， 电 流 流 过 它 ， 一 个 nMOS 器 件 的 功 耗 保 持 在 稳定 状态 。 为 构建 
出 低 功 耗 逻 辑 门 器 件 MOS 晶体 管 ， 将 nMOS 和 pMOS 晶体 管 相 结合 ， 这 种 方法 被 称 为 互补 型 
MOS (complementary MOS) (或 CMOS)。 

图 2-4 显示 了 一 个 基本 的 CMOS 反 相 器 的 工作 原理 。 当 输入 为 高 电 平时 (参见 图 2-4a)， 
PMOS 晶体 管 关 断 而 nMOS 晶体 管 导 通 。 反 相 器 内 没有 电流 流 过 。 作 为 输入 切换 到 0 时 ，PpMOS 
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晶体 管 导 通 并 饱和 ， 电 流 流 过 它 为 输出 电容 充电 ， 而 nMOS 晶体 管 关 断 。 在 这 一 过 程 中 ， 输 出 
电压 上 升 到 Vw。 一 旦 输出 电容 进行 充电 时 ，pMOS 晶体 管 导 通 ，nMOS 晶体 管 被 关 断 ， 流 经 反 
相 器 电流 消失 。 输 入 从 低 切换 到 高 是 一 个 和 上 述 过 程 相对 称 的 过 程 ， 如 图 2-4b 所 示 。 在 这 种 
情况 下 ， 电 容 通过 饱和 nMOS 晶体 管 放电 。 





Vin Vout Vin 
10 0 有 1 0 有 1 
Vas a 0 CoONVes 0NV 
a ) 输入 值 从 1 转换 到 0 b ) 输入 值 从 0 转换 到 1 
图 2-4 CMOS 反 相 器 
2.4 工艺 变更 


随 着 技术 的 不 断 进步 ， 每 一 代 工 艺 每 2 ~ 3 年 都 会 以 缩减 因子 S=V2 ( 约 30% ) 减 小 特征 
尺寸 和 电压 , 每 4~6 年 $=2 ( 即 50%) 减 小 工艺 尺寸 。 参 看 图 2-2， 表 2-1 中 所 示 的 尺寸 和 
电压 等 参数 都 进行 了 1/5 的 缩放 。 : 


表 2-1 电压 和 空间 维度 的 变更 技术 














ZE ET 
FT vs 
交道 宽度 BN 区 
栅 极 氧化 层 厚 度 Lox 1/5 
接合 深度 17S 
供电 电压 Yud 1/S 
阔 值 电压 了 1/S 
线 规模 ( 宽 , 间距 ;高 | ww | LS 


表 2-2 所 示 为 器 件 和 连 线 的 由 工艺 变更 所 改变 的 特征 参数 。 第 2 列表 示 各 个 特性 和 变更 参 
数 之 间 的 比例 关系 。 在 每 一 代 工 艺 变 更 中 ， 按 比例 变更 电压 和 空间 尺寸 , 电路 密度 增加 了 2 
倍 ， 而 性 能 (时 钟 频率 ) .增加 了 41% 。 若 遵循 表 2-1. 的 比例 规则 ， 整 个 器 件 电场 保持 不 变 ， 从 _ 
而 避免 设备 故障 和 消除 大 部 分 非 线 性 效应 。 此 外 ， 每 个 门 的 动态 功 耗 (VI) 以 5 倍数 减 小 ， 
从 而 动态 功 耗 密度 保持 恒定 。 然 而 ， 我们 将 看 到 ， 阅 值 电压 按 比 例 缩小 对 漏电 功 耗 的 增长 有 着 
指数 级 的 影响 。 


表 2-2 设备 和 线 特征 















器 件 / 线 的 特征 
晶体 管 增益 (B) 
电流 (14.) 


相关 原则 
W/L ti) 
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( 续 ) 
器 件 / 线 的 特征 相关 原则 变更 范围 
栅 电 容 (W* LL)/to. 175S 
re 区 
时 频率 s 
电路 所 占 面 积 Vs’ 
每 和 元 长 度 叶 线 扩 ? 
h/s 


每 单元 长 度 导线 电容 EE TT ! 


在 每 一 代 工 艺 之 间 ， 电 压 降 低 幅度 比 空间 维度 降低 幅度 慢 的 趋势 越 来 越 明 显 。 主 要 的 原因 
是 ， 如 果 特 征 尺 寸 缩小 同时 电源 电压 保持 不 变 ， 时 钟 频率 可 以 增加 $ 倍 ， 而 不 仅仅 是 5 倍 。 
按 比 例 缩小 电压 的 速度 比 尺寸 缩小 更 慢 的 缺点 是 ， 由 于 电场 的 强度 变 大 ;从 而 增加 了 动态 功 耗 
密度 和 器 件 故 障 的 风险 (如 介 电 击 穿 )。 

特定 工艺 下 ， 设 计 的 时 钟 速率 是 由 沿 两 个 存储 器 


Vdd 
件 〈 锁 存 器 或 触发 器 ) 之 间 的 关键 逻辑 路 径 的 延迟 决 
定 的 。 为 了 比较 不 同 的 技术 设计 ， 一 个 被 广泛 接受 的 | V 
延迟 措施 是 “F04 的 数量 ”(F04 代表 fan-out-of-4) ; 
F04 是 一 个 独立 于 工艺 的 延迟 单位 。 它 是 由 一 个 反 相 可 bl 


器 驱动 4 个 反 相 器 的 延迟 。 反 相 器 必须 对 输入 电容 进 
行 充 电 和 放电 ， 如 图 2-5 所 示 。 反 相 器 的 负载 是 图 2-5 FO4 
nMOS 或 pMOS 晶体 管 栅 极 电容 的 4 倍 。 人 们 普遍 认为 每 个 时 钟 在 执行 有 用 的 工作 时 ， 一 个 流 
水 线 级 的 延迟 不 能 少 于 八 级 逻辑 (8F04) 。 

微 处 理 器 每 个 流水 线 阶 段 门 延迟 的 数量 (F04) 由 于 微 处 理 器 的 创新 在 十 年 来 大 幅 下 降 。 
这 种 趋势 在 21 世纪 初 稳定 下 来 (由 最 近 的 数据 证 实 ) 。 旧 趋势 部 分 解释 了 为 什么 多 年 来 的 微 处 
理 器 时 钟 频率 扩大 的 速度 比 用 变更 规律 预测 的 快 得 多 。 


2.5 功 耗 和 能 耗 


通常 ， 计 算 机 设计 师 们 关注 性 能 和 成 本 ， 功 耗 方面 的 考虑 是 次 要 的 。 此 外 ; :他们 通常 在 设 
计 中 忽略 和 抽象 掉 工艺 细节 。 近 年 来 ,， 几 个 因素 使 得 这 种 情况 发 生 了 巨大 变化 ， 功 耗 已 成 为 主 
要 约束 之 一 ， 无 论 是 在 结构 设计 层面 还 是 在 物理 设计 层面 。 或 许 主要 驱动 因素 是 个 人 计算 设备 
(便携 式 计 算 机 ， 基 于 音频 和 视频 的 多 媒体 产品 ): 和 无 线 通信 系统 《个 人 数字 助理 和 个 人 通信 
系统 ) 等 设备 的 显著 成 功 以 及 种 类 的 增加 ， 它 们 要 求 高 速 计算 和 复杂 的 功能 同时 具有 很 低 的 功 
耗 /能 耗 。 然 而 ， 即 使 是 高 端 机 ， 功 耗 及 其 对 温度 、 冷 却 和 性 能 的 影响 已 成 为 主要 的 限制 尺寸 
缩小 的 因素 。 

在 一 个 芯片 中 有 两 种 功 耗 : 动态 功 耗 和 静态 功 耗 。 电 路 状态 变化 时 产生 动态 功 耗 ， 而 静态 
功 耗 独立 于 电路 状态 在 每 时 每 刻 每 个 回路 中 耗 散 (泄漏 )。 在 半导体 行业 协会 制作 的 《国际 半 
导体 技术 蓝图 (ITRS)》 中 预测 了 泄漏 电流 fa 将 在 每 一 代 高 性 能 ( 低 阔 值 电压 V;， 高 漏电) 
和 低 功 耗 〈 高 内 ， 低 泄漏 ) 晶体 管 中 加 倍 。 


2.5.1 动态 功 耗 


图 2-4 阐明 了 当 输 入 变化 时 动态 功 耗 在 'CMOS 反 相 器 中 是 如 何 消耗 的 。 每 次 反 相 器 的 输入 
改变 状态 时 都 会 产生 动态 功 耗 。 主 要 的 动态 功 耗 的 影响 是 每 一 次 栅 极 转换 状态 时 对 器 件 的 输出 
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电容 的 充电 或 放电 。 每 当 栅 极 输入 从 1 到 0 变化 时 ( 见 图 2-4a) ， 电 流 必须 从 Vs 流 过 负载 流 以 
移动 电荷 。 然 而 ， 一旦 栅 极 状态 转换 完毕 ， 就 不 会 再 产生 动态 功 耗 。 

动态 功 耗 方程 

功 耗 是 电流 和 电压 的 乘积 ， 并 且 在 一 段 时 间 7 内 消散 的 能 量 是 功 耗 的 积分 。 假 定时 间 了 是 
对 输出 电容 负载 充电 的 时 间 。 由 充电 耗 散 的 能 量 可 根据 下 式 给 出 : 


p= [p(yd = [ vr)ia > ly? 
= [, (sy [Ci 站 翅 C| va 王 FCVa (> 


设 f 是 时 钟 频 率 。 在 一 个 周期 内 时 钟 信号 切换 两 次 状态 。 但 是 ， 一般 情 况 下 ， 门 在 一 个 时 
钟 周期 期 间 转换 状态 至 多 一 次 。 一 个 门 消 耗 的 动态 功 耗 的 总 平均 功 耗 (每 单位 时 间 的 能 量 ) 
的 公式 由 下 式 给 出 : 

er CV (2. 12) 

门 的 活动 因子 a 考虑 了 栅 极 转换 状态 时 的 时 钟 周 期 。 

如 果 C 是 电路 中 所 有 门 电 路 的 电容 负载 和 ， 并 且 a 是 在 电路 中 的 门 的 平均 活性 因子 ， 则 
式 (2. 12) 可 以 解释 为 在 整个 电路 动态 功 耗 。 

根据 表 2-1 和 表 2-2， 电 源 电压 和 晶体 管 的 输入 电容 都 变更 1/5 倍 ， 同 时 频率 在 每 一 工艺 
节点 都 变更 了 5 倍 。 因 此， 一 个 给 定 的 电路 的 动态 功 耗 减 小 了 5 倍 (根据 实践 ， 系 数 为 2)。 
由 于 集成 在 一 个 特定 区 域 的 电路 的 数量 变更 了 $ 倍 ， 所 以 功 耗 密度 在 整个 过 程 中 保持 不 变 。 
这 是 非常 令 人 满意 的 ， 因 为 它 意 味 着 ， 动 态 功 耗 不 会 妨碍 集成 。 然 而 ， 为 了 实现 这 个 理想 情 
况 ， 电 压 必须 缩小 为 145 倍 。 如 果 电 源 电 压 不 按 技术 节点 的 速率 缩小 1/5 倍 ( 用 以 驱动 频率 )， 
则 在 单位 面积 的 动态 功 耗 不 会 保持 恒定 ， 而 会 增加 。 此 外 ， 如 果 该 芯片 的 尺寸 增 大 ， 则 动态 功 
耗 也 会 成 比例 地 增长 。 在 过 去 的 几 年 中 ， 电 源 电压 并 没有 按 我 们 理想 的 比例 缩小 ， 在 表 2-1 给 
出 了 理想 比例 (1/5) 规则 。 这 个 趋势 已 导致 了 整个 芯片 的 功 耗 的 显著 增加 ， 并 刺激 了 针对 功 
耗 的 体系 结构 设计 。 

注意 ， 在 门 状态 转换 的 短暂 时 间 内 ( 栅 极 电压 的 上 升 和 下 降 期 间 )，pMOS 和 nMOS 晶体 
管 同 时 被 导 通 ， 从 而 fu 和 接地 端 之 间 产 生 了 暂时 的 电流 ， 并 且 在 栅 极 转换 状态 时 产生 了 动态 
功 耗 。 与 对 输出 电容 充电 和 放电 所 需 的 功 耗 相 比 ， 这 个 寄生 功 耗 通常 被 认为 是 可 以 忽略 不 
计 的 。 

低 功 耗 设计 技术 

对 于 给 定 的 工艺 ， 有 几 种 方法 可 以 用 来 减少 数字 电路 设计 的 功 耗 。 事 实 上 ， 动 态 功 耗 
( 式 (2.12)) 暗示 了 4 种 方法 ,以 减少 给 定 电 路 的 动态 功 耗 ， 即 降低 a、C、Vi 或 f。 降 低 a 
需要 电路 级 技术 来 降低 完成 给 定 功 能 的 逻辑 活动 。 为 了 避免 伪 栅 极 和 寄存 器 值 的 转换 ， 整 个 电 
路 的 电源 可 以 在 电路 不 使 用 的 周期 内 被 切断 “例如 , 一 个 浮 点 单元 可 能 在 执行 整数 程序 的 同时 
被 禁用 )， 这 就 是 所 谓 的 电源 门 控 ， 即 一 个 单元 当 它 在 不 使 用 时 就 断 开 其 电源 ， 如 图 2-6a 
所 示 。 
在 一 个 蕊 片 中 最 活跃 、 最 耗 电 的 网 络 是 时 钟 网 络 、 因 为 时 钟 信号 在 每 个 时 钟 周期 切换 两 
次 。 时 钟 门 控 是 指 当 电 路 不 使 用 时 ， 断 开 其 时 钟 ， 如 图 2-6b 所 示 。 时钟 门 控 降 低 了 由 时 钟 
网 络 和 选 通电 路 消耗 的 动态 功 耗 。 条 件 选 通 是 指 ， 如 果 存 储 在 寄存 器 中 的 值 是 不 变 的 ; 那 
么 到 达 寄 存 器 的 时 钟 信号 被 禁止 ， 也 降低 了 因 电 路 的 动态 功 耗 。 条 件 控制 如 图 2-6c 所 示 。 
在 这 个 例子 中 , 每 当 信号 e 处 于 活动 状态 时 ， 寄 存 器 B 的 值 被 存储 到 寄存 器 A 中 。 在 最 顶层 
的 设计 中 ，A 的 下 一 个 值 在 每 一 个 时 钟 内 被 选择 (基于 < 的 值 ) 和 选 通 。 在 较 低 层 的 设计 中 
(有 条 件 的 选 通 )， 只 有 当 信 号 < 是 有 效 的 ，B 中 的 值 才 会 被 选 通 到 A。 

7 时钟 频 率 对 动态 功 耗 有 线性 影响 ,但 降低 了 时 钟 频 率 对 性 能 的 直接 负面 影响 。 在 实践 中 ， 
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Vad 


时 钟 





If(OAcB 
a ) 电源 门 控 b ) 时 钟 门 控 Cc) 条 件 选 通 


图 2-6 电路 级 的 节能 技术 


可 以 减 小 非 关 键 路 径 的 部 分 电路 的 频率 。 

很 明显 ， 大 幅 降 低 动 态 功 耗 的 最 佳 方式 是 降低 供电 电压 V。， 即 名 为 电压 缩放 (voltage 
scaling) 方式 。 效 果 是 二 次 方 的 。 问 题 是 ， 对 负载 进行 充电 和 放电 的 饱和 电流 fs 与 Ta = 从 
的 平方 成 正比 〈 式 (2. 10) )。V 不 断 减 小 使 得 保持 相同 的 时 钟 频 率 变 得 不 可 能 ， 因 为 信号 的 
上 升 和 下 降 时 间 不 能 满足 栅 极 的 噪声 容 限 。 为 了 避免 这 个 问题 ， 一 个 方法 是 减 小 内 同时 也 减 
小 Vu。 然而 ， 这 种 方法 也 有 局 限 。 首 先 ， 我 们 将 在 2. 5. 2 节 看 到 ， 降 低 内 时 静态 功 耗 呈 指数 
增长 。 其 次 ， 栅 极 的 噪声 容 限 变 小 ， 栅 极 可 能 变 得 不 可 靠 。 多 阔 值 CMOS (MTCMOS) 电路 是 
解决 这 个 难题 的 一 种 方法 。 在 MTCMOS 电路 中 ， 有 两 种 类 型 的 晶体 管 : high-V，。，( 低 泄漏 ) 和 
low-V (高 泄漏 ) 。 电 路 的 设计 为 了 速度 而 采用 low-V 晶体 管 并 通过 high- TV 晶体管 连接 到 电 
源 。 在 待机 模式 下 ，high-V 唱 体 管 完全 切断 电路 的 电源 (图 2-6a) ， 从 而 消除 待机 漏电 功 耗 。 
High-V，。( 缓慢 ， 低 静态 功 耗 ) 的 晶体 管 可 以 在 非 美 键 路 径 上 使 用 ， 而 low-V;， (快速 ， 高 的 静 
态 功率 晶体 管 ) 在 关键 路 径 上 使 用 。 

降低 电压 和 频率 为 体系 结构 设计 提供 了 新 的 机 遇 。 随 着 电压 的 降低 ， 频 率 必 须 按 比 例 减 
小 。 当 电压 和 频率 变化 成 比例 ， 动 态 功 耗 是 〈 大 致 ) 与 频率 的 立方 成 比例 。 这 一 观察 结果 对 
计算 机 体系 结构 有 着 深刻 影响 。 假 设 一 个 设备 〈 如 微 处 理 器 ) 运行 在 1GHz 的 频率 下 ， 并 消耗 
100W 的 功 耗 。 如 果 频 率 和 电源 电压 都 按 比例 缩小 到 原来 的 1/10 时 ， 设 备 现 在 运行 在 100MHz 
的 频率 下 (性 能 下 降 到 1/10); 但 其 动态 功 耗 仅 为 100pmW， 这 个 功 耗 在 手持 设备 的 功 耗 范 
围 内 。 

动态 功 耗 方程 的 另 一 个 应 用 是 在 不 同 功 耗 水 平 运行 器 件 。 必 要 时 通过 简单 地 调节 电源 电压 
和 工作 频率 ， 设 备 可 以 在 不 同 的 性 能 / 功 耗 点 运行 ， 在 合理 的 性 能 损失 中 节省 大 量 的 功 耗 。 这 
个 调节 可 静态 或 动态 进行 。 例 如 ， 一 个 完整 的 系统 (例如 笔记 本 电脑 ) ， 当 它 被 连接 到 一 个 电 
源 时 可 在 最 大 功 耗 下 运行 ， 而 在 电池 供电 时 则 运行 在 低 功 耗 状态 。 不 同 功 耗 水 平 可 以 被 应 用 到 
不 同 的 活动 水 平 ， 取 决 于 其 性 能 的 关键 因素 。 

一 个 更 激进 的 策略 是 对 每 个 有 自己 的 电源 电压 的 电路 以 不 同 的 频率 范围 进行 分 区 (如 微 处 
理 器 ) 。 频 率 和 电压 可 以 在 每 个 域 中 进行 调整 ， 以 优化 基于 每 个 结构 域 的 功能 的 整体 的 功 耗 /性 
能 。 频 率 和 电源 电压 也 可 以 在 单个 或 多 个 频 域 动态 地 改变 ， 从 而 在 时 间 关 键 和 非 时 间 关 键 的 阶 
段 使 用 DVFS (Dynamic Voltage and Frequency Scaling， 动 态 电 压 和 频率 调整 ) 运行 。DVFS 是 适 
用 的 ， 例 如 在 实时 系统 中 ， 处 理 器 必须 满足 最 后 期 限 ， 并 且 可 以 为 准时 满足 截止 时 间 调 节 其 频 
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率 ， 在 功 耗 最 小 和 避免 空闲 时 间 的 同时 仍然 满足 其 功能 要 求 。DVFS 的 主要 问题 是 要 改变 fa 所 
需 的 等 待 时 间 。 相 对 于 时 钟 频率 ， 电 源 是 一 种 非常 慢 的 器 件 ， 它 外 置 于 芯片 并 且 有 很 大 的 惰 
性 。 当 前 的 情形 是 大 概 能 以 20mV/ms 的 速度 改变 fu。 因 此 为 分 摊 其 开销 ， 电 源 电压 的 变化 必 
须 是 很 小 且 不 频繁 的 。 

立方 式 的 动态 功 耗 关系 也 有 利于 在 所 有 层次 上 更 快 的 时 钟 速率 下 并 行 。 例 如 ， 在 低频 率 
下 ,利用 指令 级 并 行 (ILP) 运行 一 个 复杂 的 处 理 器 ， 要 比 高 频 的 条 件 下 驱动 一 个 简单 的 五 级 
流水 线 有 更 好 的 效果 ， 即 使 这 个 ILP 处 理 器 需要 更 多 的 硬件 基础 设施 来 提取 和 利用 并 行 性 。 动 
态 功 耗 方程 也 有 利于 多 处 理 器 。 为 证 实 这 一 点 ， 让 我 们 比较 两 个 升级 为 单 核 微 处 理 器 硬件 : 在 
升级 1 中 ， 增 加 了 一 个 核 ， 并且 该 时 钟 速率 保持 不 变 。 其 潜在 增 速 为 2 倍 ， 动 态 功 耗 乘 以 2。 
在 升级 2 中 ， 时 钟 速率 提高 了 2 倍 ， 潜 在 增 速 也 为 2, 但 这 次 的 动态 功 耗 是 乘 以 8。 因 此 双核 
的 解决 方案 消耗 的 动态 功 耗 是 单 核 时 钟 频率 加 倍 后 的 动态 功 耗 的 四 分 之 一 。 此 外 ， 双 核 解决 方 
案 的 动态 功 耗 更 均匀 地 分 布 在 芯片 面积 ， 因 此 不 太 可 能 在 芯片 上 产生 热点 。 

为 了 进一步 说 明 这 一 观点 ， 考 虑 重复 执行 的 硬件 功能 (如 指令 执行 的 微 处 理 器 )。 如 
图 2-7 所 示 ， 功 耗 可 以 通过 将 硬件 功能 流水 化 或 通过 并 行 处 理 得 到 降低 。 原 电路 的 时 钟 周期 为 
7， 并 有 16F04 的 延迟 。 输 入 值 和 输出 值 是 以 f=1/7 的 速率 进行 处 理 的 。 如 果 该 函数 可 以 在 两 
个 阶段 执行 流水 线 ， 每 个 阶段 具有 8F04 钦 辑 延迟 和 相同 的 时 钟 速率 f， 然 后 输入 和 输出 值 仍然 
以 相同 的 速率 处 理 。 然 而 ， 现 在 的 电源 电压 可 以 减 小 一 半 ， 因 为 逻辑 延迟 (在 F04 为 单位 ) 已 
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图 2-7 用 流水 和 并 行 的 方式 降低 动态 功 耗 


若 原 设 计 不 能 流水 ， 两 个 连续 的 输入 值 的 处 理 也 可 以 并 行 完成 ， 如 图 2-7 所 示 。 该 函数 的 
硬件 必须 被 复制 ， 但 是 ， 由 于 两 个 平行 单元 并 行 工作 ， 它 们 在 主 频 为 原 电路 一 半 的 情况 下 可 以 
达到 相同 的 性 能 水 平 。 在 这 个 过 程 中 ， 电 压 可 以 减少 一 半 。 因此 ， 每 个 并 联 装置 花费 原来 电路 
功 耗 的 八 分 之 一 ， 总 体 而 言 ， 对 于 两 个 单元 ,动态 功 耗 被 降低 到 四 分 之 一 。 

热点 效应 

除了 平均 功 耗 ， 芯 片 设计 人 员 必 须 考虑 空间 或 时 间 的 峰值 功 耗 ， 以 避免 极端 的 热效应 。 例 
如 ， 一 个 高 度 活 路 的 阶段 会 导致 芯片 过 热 。 有 些 程序 阶段 可 能 过 度 地 使 用 某 个 功能 单元 模块 ， 
在 芯片 上 形成 局 部 热点 。 这 种 热点 可 能 会 导致 单元 模块 发 生 故 障 甚至 崩溃 。 这 样 的 模块 必须 暂 
时 关闭 或 节 流 使 局 部 温度 限制 在 可 忍受 范围 内 。 
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2. 5.2 静态 功 耗 


静态 功 耗 是 晶体 管 关 断 时 的 功 耗 。 参见 图 2-4， 一 且 栅 极 状态 改变 ， 在 栅 极 应 该 没有 功 耗 ， 
因为 跨越 晶体 管 的 电位 是 零 ， 没 有 电流 能 够 流 过 关 断 的 晶体 管 。 不 幸 的 是 ， 这 是 CMOS 到 相 器 
的 理想 模型 的 特性 。 即 使 晶体 管 在 关 断 状态 ,也 存在 多 种 原因 会 导致 漏电 流 (leakage current) 
产生 ， 这 些 电 流 在 任何 时 候 都 产生 静态 功 耗 。 漏 电流 最 重要 的 来 源 之 一 是 亚 阅 值 漏 电流 ( sub- 
.threshold leakage) 。 
亚 阐 值 漏电 流 
当 栅 源 电压 Yes 降低 且 低 于 内 时 ， 电 流 人 hs 并 没有 下 降 到 零 ， 而 根据 以 下 公式 呈 指 数 减 小 : 
i en, (2% 
其 中 vw 是 依赖 于 温度 的 热电 压 ，wvwi 与 温度 成 反比 ( 开 氏 温标 下 ) ， 在 室温 下 大 约 为 25mV; Tow 
是 在 阔 值 栅 极 电压 时 的 电流 。 虽 然 由 于 亚 阔 值 泄漏 产生 的 电流 很 小 ， 但 它 会 随 着 国 值 电压 的 减 
小 迅速 增长 。 当 nMOS 晶体 管 为 OFF， Vs =0，ym = Vs (〈 比 六 大 得 多 )， 亚 阔 值 泄漏 产生 的 项 
态 功 耗 由 下 式 给 出 : 
Po = Valpsw, = Walpme < (2.14) 
其 中 Po =Bvre”o 
亚 阔 值 漏电 流 与 阔 值 电压 具有 直接 的 指数 关系 。 随 着 阔 值 电压 降低 ， 亚 阔 值 漏电 功 耗 呈 指 
数 增长 。 漏 电 功 耗 与 温度 〈 开 氏 温 标 下 ) 因为 依赖 于 vi 也 成 倍增 加 。 当 通过 一 个 因子 为 1/5 
的 变更 工艺 ，Yu7psw 不 会 改变 ， 因 为 Wu 缩放 为 1MS$， 同 时 晶体 管 增益 B 变更 为 3S 倍 。 然 而 ， 国 
值 电压 也 变更 为 3 倍 ， 这 将 导致 静态 功 耗 的 快速 指数 增加 。 因 此 ， 亚 阔 值 功 耗 最 近 成 为 功 耗 的 
主要 组 成 部 分 ， 堪 比 动态 功 耗 ， 而 这 一 趋势 在 未 来 工艺 尺寸 按 比 例 缩 小 时 势必 更 糟 。 
式 (2. 14) 适用 于 整个 器 件 密度 均匀 的 电路 。 要 获得 整个 电路 的 静态 功 耗 ， 只 需 将 P, 乘 
以 因子 4，P,, 正 比 于 所 占用 的 电路 面积 ，4 是 实际 上 在 电路 器 件 的 数量 。 
载 流 子 隧道 效应 ( 门 级 漏电 流 ) 
静态 功 耗 还 有 其 他 来 源 。 其 中 之 一 是 由 于 穿 过 栅 极 电介质 (Si0,) 的 载体 隧道 形成 的 机 极 
漏电 流 。 随 着 设备 的 尺寸 缩小 ， 栅 绝缘 体 的 厚度 (i, ) 达到 十 几 埃 (1A =0. lnm) ， 达 到 了 原 
子 尺寸 规模 。 介 电 材 料 是 如 此 之 薄 ， 以 至 于 载 流 子 可 以 使 用 它们 的 方式 (隧道 ) 穿 过 它 ; 仅 
仅 通 过 它们 自身 的 热能 就 可 以 做 到 。 这 导致 了 栅 极 电流 泄漏 ， 并 与 绝缘 体 的 厚度 呈 指 数 下 降 。 
英特尔 最 近 用 二 氧化 欠 ( Hf0,) 取代 了 二 氧化 硅 。 二 氧化 欠 是 一 种 high-k (高 介 电 常数 ) 材 
料 ， 可 以 制 成 45nm 栅 极 电 介质 。 电 容 正 比 于 电介质 的 介 电 常数 并 反比 于 它 的 厚度 (参照 
式 (2.6))s 
当 栅 极 电 介质 具有 更 高 的 介 电 常 数 ， 它 可 以 更 厚 并 且 在 相同 的 电压 下 保持 相同 的 电荷 。 晶 
体 管 增益 B 和 切换 速度 都 正比 于 栅 极 电容 。 因 为 隧道 电流 随 着 电介质 厚度 呈 指 数 降低 ，high- 
介 电 材料 ， 诸 如 HIO,， 能 非常 有 效 地 解决 栅 极 泄漏 问题 ， 并 且 将 可 能 取代 二 氧化 硅 作为 在 将 
来 的 MOSFET 机 电容 的 介 电 材料 。 降 低 栅 极 漏电 流 的 方法 有 可 能 属于 材料 工程 研究 的 领域 。 
其 他 次 要 的 电流 泄漏 的 来 源 还 有 流 过 扩散 区 与 衬 底 之 间 的 电流 。 在 本 章 的 其 余部 分 ， 我们 
忽略 了 除了 亚 阔 值 漏电 流 的 所 有 其 他 形式 的 静态 功 耗 。 
降低 静态 功 耗 
适用 于 动态 功 耗 的 大 部 分 技术 对 静态 功 耗 也 是 有 帮助 的 ， 但 是 它们 的 效果 有 时 会 不 同 。 减 
少 Vs 对 静态 功 耗 有 线性 影响 ,但 减 慢 了 电路 速度 ， 并 影响 其 可 靠 性 。 最 大 限度 地 减少 在 电路 
设计 中 门 和 存储 器 单元 的 数量 ， 这 会 对 面积 和 静态 功 耗 产 生 积极 的 影响 。 
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如 图 2-7 所 示 ， 在 减少 静态 功 耗 方面 ， 流 水 线 是 一 个 比 并 行 执行 更 好 的 技术 ， 因 为 流水 线 
电路 与 原来 的 电路 占据 大 致 相 同 的 芯片 面积 ， 并 因此 静态 功 耗 没有 改变 。 相 对 而 言 ， 并 行 解决 
方案 消耗 了 2 倍 的 面积 和 静态 功 耗 。 从 整体 功 耗 来 看 ， 流 水 线 的 解决 方案 是 最 佳 的 ， 除 非 该 函 
数 不 能 被 流水 化 。 设 计 首 先 应 尽 可 能 部 署 流水 线 ， 然 后 再 考虑 并 行 。 

功 耗 门 控 (也 称 为 gate-Vu， 见 图 2-6a) 是 非常 有 效 的 ， 因 为 它 完全 消除 了 电路 的 静态 功 
耗 (如 一 个 未 使 用 的 单元 ) 。 问 题 是 ,， 一旦 必须 进行 恢复 ， 所 有 存储 元 件 的 内 容 就 被 破坏 了 。 
此 外 ,性 能 和 (动态 的 ) 功 耗 代价 必须 为 设备 供电 做 出 牺牲 。 附 加 电路 必须 监视 设备 的 开启 
和 关闭 的 需求 ， 并 且 必 须 切换 打开 和 关闭 电源 。 这 些 电路 同样 存在 静态 功 耗 。 

根据 式 (2.14) 可 知 ， 最 关键 的 参数 是 阔 值 电压 。 基 于 临界 性 能 的 、 拥 有 不 同 阔 值 电压 的 
晶体 管 可 以 在 整个 电路 中 优化 静态 功 耗 。 阔 值 电压 甚至 可 以 通过 在 源 极 和 衬 底 之 间 应 用 一 个 反 
向 偏 置 电 压 而 动态 地 增加 ， 这 被 称 为 动态 MTCMOS 方法 。 重 新 激活 该 电路 ， 偏 置 电压 被 去 除 。 
电压 门 控 和 动态 MTCMOS 之 间 的 区 别 在 于 被 存储 在 存储 单元 中 的 数据 能 否 被 保护 。 这 个 动态 
调控 可 以 在 每 个 电路 中 有 选择 地 完成 。 由 于 衬 底 上 的 RC 常数 是 很 高 ， 在 高 和 低 阐 值 电 压 之 间 
的 转换 需要 的 延迟 和 能 量 比 门 控 Vi 要 高 得 多 ， 这 也 是 动态 MTCMOS 的 缺点 。 

片上 缓存 应 用 

在 芯片 设计 中 的 多 数 唱 体 管 主要 用 于 存储 ， 而 不 是 用 于 计算 。 这 些 存储 结构 在 现代 的 核 中 
包括 cache、 分 支 预测 器 (branch predictor) 、 存 储 缓 冲 器 (store buffer) 、 加 载 / 存 储 队 列 
(load/store queue) 、 预 取 队 列 (instruction fetch queue) 、 发 射 队列 (issue queue) 和 重 排序 缓冲 
器 (re-order buffer) 。 由 于 每 类 存储 的 每 比特 的 利用 率 随 着 结构 尺寸 的 增加 而 下 降 ， 随 机 访问 
这 些 存储 结构 的 概率 也 随 之 降低 。 静 态 功 耗 是 由 芯片 上 的 每 一 个 晶体 管 产生 的 ， 不 论 它 是 否 被 
频繁 使 用 ， 所 以 这 些 存 储 结构 所 产生 的 静态 功 耗 占 了 总 静态 功 耗 的 很 大 一 部 分 ， 尽 管 它 们 的 大 
部 分 都 在 很 长 时 间 内 闲置 。 例 如 ， 一 个 大 型 的 L2 cache 行 很 少 被 访问 ， 因 为 二 级 缓存 上 仅 存 取 
在 Ll cache miss 的 访问 ， 这 些 访问 在 二 级 缓存 行 中 广泛 分 布 。 此 外 ，cache 人 的 信 和 部 分 是 

“死亡 的 ”， 即 在 从 缓存 中 被 删除 之 前 它们 将 不 会 再 次 被 访问 。 

为 节省 片上 高 速 缓存 漏电 ， 可 以 在 电路 级 切断 各 个 高 速 缓存 的 电源 ( 如 使 用 电压 门 控 或 门 
控 Vi)， 也 可 以 通过 增 大 阅 值 电 压 (动态 MTCMOS) 将 它们 切换 到 休眠 模式 ， 或 通过 减少 供 
给 电压 电 平 (reduced- Va) 来 实现 。 当 cache 的 电源 被 切断 时 ， 存储 在 其 中 的 数据 都 将 丢失 。 
最 新 的 数据 副本 必须 在 低层 的 存储 中 备份 ， 并且 下 次 访问 此 地 址 会 出 现 miss。 这 种 方法 的 成 功 
基于 能 够 准确 预测 cache 的 “死亡 ”时 间 点 ， 即 该 时 间 点 后 该 cache 地 址 永远 不 会 被 访问 直到 
其 被 删除 。 除 非 该 预测 是 成 功 的 ， 否 则 这 一 方案 增加 了 miss 率 ， 从 而 影响 整体 性 能 和 动态 功 
耗 。 另 一 种 利用 电压 门 控 的 方法 是 基于 应 用 需求 调整 cache 大 小 。 这 种 方法 主要 是 cache 利用 
应 用 程序 的 不 同 ， 并 在 申请 时 动态 改变 应 用 程序 的 工作 集 大 小 。 因 此 ， 通 过 关 掉 未 使 用 的 
cache 静态 或 动态 改变 cache 的 大 小 可 以 节省 大 量 的 静态 功 耗 。 和 静态 调整 将 在 执行 整个 应 用 程序 
前 完成 ， 而 动态 调整 是 在 执行 过 程 中 根据 需求 的 变化 改变 cache 大 小 。 编 译 器 可 以 在 早期 丢弃 ， 
“死亡 ”地 址 或 调整 cache 大 小 。 

一 个 不 太 激 进 的 方法 是 让 “cache 休 眼 ”， 通 过 增加 cache 中 的 晶体 管 的 source-to-body 的 电 
压 ， 这 样 会 引起 阔 值 电压 的 升 高 。 然 而 ， 在 休 眼 和 非 休眠 模式 之 间 进 行 切换 时 ，cache 行 性 能 
和 功率 的 代价 很 高 ， 并 且 电 路 会 很 复杂 。 

休眠 缓存 的 引入 有 希望 限制 静态 功 耗 ， 同 时 不 会 造成 过 度 的 性 能 下 降 。 休 眠 cache 行 可 以 
是 两 种 模式 中 的 一 种 : (1) 低 泄漏 休眠 模式 ， 其 中 数据 将 被 保留 ， 但 不 能 被 访问 ; (2) 一 种 
高 泄漏 休眠 模式 ， 在 cache 访问 时 使 用 5 在 休眠 模式 下 的 cache 行 的 电源 电压 被 降低 到 不 会 破 
坏 数据 的 尽 可 能 最 小 的 电 平 。 这 个 电 平 比 阔 值 电压 高 。 两 种 功 耗 电 源 (一 个 是 标 称 的 ， 一 个 是 
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用 于 休 眼 的 电源 电压 ) 必须 达到 所 有 的 cache 行 ， 每 个 cache 行 有 一 个 休眠 位 来 控制 选择 电源 
功 耗 模式 。 用 启发 式 的 方法 决定 不 入 的 将 来 哪 一 行将 会 被 访问 ， 并 且 这 些 行将 保持 在 清醒 状 
态 。 实 际 上 ， 休 眠 cachie 用 动态 电压 缩放 的 方法 来 降低 其 漏电 功 耗 。cache 访 存 时 休眠 唤醒 的 唯 
一 牺牲 就 是 很 小 的 延迟 和 一 点 能 量 。 小 型 的 Ll 休 眼 cache 的 简单 启示 是 将 所 有 的 cache 行 每 隔 
几 千 个 周期 就 转换 到 休眠 模式 下 。 休 眠 cache 行 被 唤醒 ， 并 在 它 的 第 一 次 访问 中 激活 全 部 标 称 
功率 。 它 保持 在 满 功率 状态 ， 直 到 当前 时 间 间 隔 结束 时 ， 此 时 所 有 cache 行 被 复位 到 休眠 模式 。 
根据 这 个 简单 的 方案 和 访问 一 个 休眠 cache 不 超过 一 个 周期 的 唤醒 代价 ， 一 级 缓存 的 全 部 流量 
功 耗 可 以 降低 75% ， 并且 对 性 能 的 影响 有 限 。 

对 于 大 型 的 (可 能 共享 的 ) L2 cache， 它 的 cache 行 很 少 被 访问 ， 所 有 cache 行 都 可 以 在 长 
时 间 内 保持 在 休眠 的 状态 。 当 LIl 访问 失效 而 访问 L2 的 cache 行 时 ， 它 先 达到 全 功率 ,然后 进 
行 访问 。 访问 行 之 后 ， 它 返回 到 休眠 的 状态 。 相 比 于 Ll cache 的 多 周期 失效 损失 ， 用 来 唤醒 线 
路 的 增加 的 [2 失效 损失 是 可 以 忽略 不 计 。 


2. 5.3 功 耗 和 能 量 指标 


当前 ， 功 耗 已 成 为 主要 的 设计 考虑 ， 在 此 之 前 ， 面 积 和 性 能 是 公认 的 衡量 VLSI 设计 质量 
的 标准 。 设 计 的 好 坏 是 由 “面积 乘 延 迟 ” (AD) 来 衡量 的 。 对 于 给 定 的 性 能 标准 ， 它 的 值 越 
高 说 明 设计 越 差 。 给 定 两 个 AD 值 相同 的 设计 ， 面 积 和 时 间 之 间 可 能 有 不 同 的 折衷: 低速 和 小 
面积 或 高 速 和 大 面积 。 而 面积 仍然 是 一 个 问题 ， 片 上 硬件 的 指数 级 增长 以 及 目前 电源 和 功 耗 所 
带 来 的 硬性 限制 ， 使 得 这 种 担心 变 为 次 要 的 。 因 此 ， 类 似 的 衡量 标准 已 制订 ， 包 含 了 功率 、 能 
量 和 性 能 。 

功率 是 瞬时 能 量 ， 单 位 时 间 内 的 能 量 。 功 耗 产 生 热 量 ， 如 果 不 以 热量 产生 的 速度 将 热量 释 
放出 去 ,就 会 引起 升温 。 一 个 体系 结构 的 具体 实施 方案 包括 由 它 的 散热 和 封装 技术 决定 的 功率 
范围 。 当 功率 超过 这 个 范围 时 , 一 个 现代 的 处 理 器 必须 具备 一 种 机 制 来 关闭 或 减缓 自身 速度 ， 
以 避免 热效应 的 危害 ， 如 影响 性 能 ， 导 致 暂时 性 的 电路 故障 ， 降 低 芯 片 的 预期 寿命 ， 甚 至 损坏 
芯片 。 频 率 越 低 ， 功 耗 越 低 ， 这 意味 着 设计 可 以 通过 最 大 限度 地 发 挥 其 执行 时 间 来 降低 功率 。 
因此 ， 虽 然 功率 是 一 个 重要 的 设计 目标 ， 但 不 能 被 单独 用 作 设计 质 量 的 度量 。 在 实践 中 ， 必 须 
有 执行 时 间 的 约束 。 

能 量 是 环境 中 有 限 电源 供应 的 一 个 重要 指标 ， 如 电池 。 能 源 是 功率 在 一 段 时 间 了 内 的 
积分 : 


了 7 7 
E= | Pt) | Py lt) det | ,Pie Ct) Ht = Ete Eo (2. 15) 


能 量 是 执行 的 任务 一 段 时 间 消 耗 的 总 功率 。 如 果 五 是 能 量 ，P 为 平均 功率 ,而 D 是 延迟 
(执行 时 间 )， 则 =PD。 通常 情况 下 ， 更 多 的 功率 转化 为 更 高 的 性 能 。 因 为 动态 功率 是 频率 
的 超 线性 函数 ， 并 且 延 迟 反比 于 频率 ， 最 大 限度 地 减少 动态 功 耗 依然 等 同 于 执行 时 间 的 最 大 
化 。 对 于 瞬间 ， 如 果 频 率 减 半 ， 功 耗 (P) 在 理想 的 情况 下 减少 八 分 之 一 。 减 少 一 半 的 频率 会 
增加 2 倍 的 延迟 (D)， 动态 功 耗 下 降 1/4 (由 =(1/8)Px2D 得 )。 然 而 ,静态 能 量 随 D 而 
增加 。 因 此 ， 降 低频 率 和 性 能 导致 了 能 量 消耗 总 量 的 上 升 , 因为 静态 功 耗 开 始 占 据 主导 地 位 。 

要 提高 性 能 在 设计 度量 中 的 重要 性 ， 延 迟 的 影响 必须 在 指标 中 加 以 强调 。 能 量 延 迟 积 
(ED) 更 强调 性 能 ， 适 合 表征 工作 站 和 桌面 环境 。 最 后 ，ED” 【能 量 延迟 平方 积 ) 是 一 种 用 于 
测量 高 性 能 系统 的 标准 ， 如 超级 计算 机 或 高 端 服务 器 ;其 中 的 性 能 是 最 重要 的 并 且 能 源 供应 和 
冷却 能 力 很 强大 ; ED? 是 相对 于 性 能 的 一 个 非常 积极 的 指标 。 随 着 频率 的 减 小 ， 度 量 的 动态 分 
量 保 持 不 变 或 增 大 ， 因 为 动态 功 耗 和 频率 之 间 的 关系 顺序 在 现实 中 小 于 三 次 方 。 同 时 , 度量 的 


静态 部 分 的 增长 为 广 。 

最 后 对 处 理 器 而 言 一 个 重要 指标 是 每 条 指令 所 花费 的 能 量 (EPI) 。 它 等 于 花费 在 任务 的 
总 能 量 除 以 执行 的 指令 总 数 。EPI 是 通过 在 一 个 任务 花费 的 能 量 除 以 执行 的 指令 总 数 来 计算 
的 。 它 对 性 能 的 度量 与 CPI 非常 相似 , 但 又 解决 了 功 耗 和 能 量 问题 。EPI 节 流 (EPI throttling) 
是 一 种 技术 ， 其 中 每 条 指令 所 花费 的 能 量 适应 于 可 以 并 行 执行 的 指令 的 数目 。 当 并 行 指令 的 数 
量 有 限时 ，EPI 尽 可 能 快 地 执行 它们 。 当 并 行 度 很 高 时 ，EPI 尽 可 能 地 降低 执行 指令 数 ， 从 而 
保持 在 功率 范围 内 。 


2.6 可 靠 性 , 


工艺 变更 的 一 个 负面 影响 是 降低 了 器 件 的 可 靠 性 ， 从 而 导致 计算 机 系统 中 的 各 种 故障 。 故 
障 大 致 可 分 为 三 种 类 型 : 瞬时 故障 ， 间 歇 性 故障 ， 永 久 故 障 。 每 个 故障 类 别 可 以 体现 在 多 个 方 
面 。 瞬 时 故障 引起 非 破坏 性 的 位 翻转 (从 1 到 0 或 从 0 到 1)， 仅 仅 是 错误 的 数据 值 ， 除 了 一 次 
性 的 位 翻转 以 外 对 器 件 没有 影响 。 间 吹 性 故障 在 某 种 条 件 下 导致 时 序 或 逻辑 违规 ， 如 高 温 ， 其 
中 的 逻辑 电路 的 计算 值 没 有 传播 到 输出 锁 存 器 。 间 歇 性 故障 可 能 会 持续 一 段 时 间 ， 影 响 电路 的 
行为 ， 但 没有 长 期 的 影响 。 瞬 时 和 间歇 性 故障 在 不 同 的 粒度 是 可 恢复 的 。 然 而 ， 永 久 故 障 是 不 
可 恢复 的 ， 如 stuek-at-170 故障 ， 不 论 电 路 输入 如 何 ， 输 出 锁 存 器 被 永久 地 停留 在 1 或 0。 当 检 
测 到 一 个 永久 的 故障 时 ， 电 路 是 不 可 用 的 ， 必 须 进 行 分 离 并 从 操作 中 移 除 。 


2. 6.1 故障 和 错误 


由 于 设计 一 个 可 靠 的 系统 是 有 代价 的 ， 系 统 设 计 人 员 必 须 弄 清楚 故障 (fault) 和 错误 
(error) 之 间 的 区 别 。 显 然 ， 避 免 故 障 是 首要 的 设计 目标 。 然 而 ， 完 全 的 无 故障 可 能 是 不 现实 
的 ， 甚 至 在 某 些 情 况 下 是 不 必要 的 。 故 障 是 可 靠 性 降低 的 物理 表现 ， 但 它 并 不 一 定 转化 为 一 个 
错误 。cache 行 的 单 比 特 翻转 是 一 个 故障 ， 但 如 果 处 理 器 从 来 没有 访问 故障 位 ， 它 不 能 转化 为 
一 个 错误 。 一 个 故障 可 以 通过 多 种 检测 和 校正 技术 被 限制 在 一 定 范围 内 。 因 此 ,' 可 靠 性 的 另 目 
标 是 防止 故障 破坏 计算 。 例 如 ，cache 中 的 比特 位 翻转 可 被 检测 出 ， 并 用 单 纠 错 双 检 错 (SEC- 
DED) 码 校正 。 如 果 比 特 位 翻转 在 处 理 器 访问 该 位 之 前 被 校正 ， 则 该 故障 对 程序 的 结果 没有 影 
响 。 在 这 个 例子 中 ， 故 障 隔离 的 范围 是 在 cache 内 ， 并 且 只 要 故障 是 缓存 外 部 不 可 见 的 , 那 它 
就 只 是 一 个 故障 ， 并 没有 转化 为 一 个 错误 。 

如 果 在 同一 cache 行 有 两 位 翻转 〈 两 个 故障 ) ， 则 一 个 SECDED 代码 无 法 纠正 这 两 个 错误 ， 
尽管 它 检 测 到 该 cache 的 数据 是 错误 的 。 因 此， 处 理 器 知道 该 值 不 正确 。 在 这 种 情况 下 ， 故 障 
已 越过 缓存 范围 ， 并 已 在 可 见 的 范围 外 ， 且 故障 已 经 成 为 一 个 错误 。 如 果 cache 行 有 三 个 故障 
位 ,在 cache 中 的 SECDED 代码 甚至 无 法 检测 到 一 个 错误 的 存在 。 因 此 ，cache 行 跨越 了 缓存 范 
围 的 界限 ， 故 障 最 终 变 成 了 错误 。 在 SECDED 可 以 检测 到 的 错误 和 SECDED 不 能 检测 到 的 错误 
之 间 ， 有 着 根本 的 区 别 。 在 第 一 种 情况 下 ， 当 处 理 器 访问 数据 时 ， 它 知道 它 访问 了 错误 的 值 。、 
当 SECDED 不 能 检测 到 错误 ， 则 处 理 器 不 知道 它 访问 的 数据 是 错误 的 。 

根据 影响 ,故障 可 划 归 三 类 错误 类 型 。 包 含 在 容错 范围 内 的 故障 是 可 以 纠正 的 ， 这 些 故 障 
被 称 为 可 恢复 的 错误 (Recoverable Error，RE) ， 比 如 使 用 误差 校正 机 制 控制 结果 的 产生 。 如 果 
检测 到 鲁 误 ， 但 不 在 容错 范围 之 内 ， 错 误 变 为 能 被 检测 到 但 不 可 恢复 的 错误 (DUE) 。 如 果 故 
障 不 在 容错 范围 ， 甚 至 没有 被 检测 到 ， 它 就 变 成 了 无 记载 数据 损坏 (Silent Data Corruption， 
SDC) 错误 。 可 恢复 的 错误 不 会 影响 系统 的 行为 ， 而 SDC 错误 是 最 具 破 坏 性 的 错误 ， 因 为 该 系 
统 甚至 不 知道 它们 。 虽 然 SDC 错误 极为 罕见 ， 但 它 可 能 对 用 户 造成 非常 严重 的 后 果 。 

系统 可 靠 性 的 重要 程度 是 与 发 生 故 障 的 概率 (非常 小 的 ) 和 一 个 类 型 的 故障 可 能 对 用 户 
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造成 的 影响 相关 的 。 即 使 故障 的 概率 非常 低 ， 但 一 个 错误 的 成 本 可 能 会 非常 高 。 考 虑 到 处 理 器 
平均 每 5 年 一 次 遇 到 不 可 恢复 的 错误 (DUE 或 SDC) ， 而 且 平 均 每 年 数 百 万 的 处 理 器 都 在 使 
用 ， 则 每 年 五 分 之 一 的 处 理 器 预计 会 出 错 。 平 均 每 天 超过 500 多 个 不 可 恢复 的 故障 发 生 ， 并 且 
可 能 造成 灾难 性 的 后 果 ， 这 对 于 任何 一 个 消费 类 电子 公司 都 是 一 个 残酷 的 现实 ! 所 以 , 每 5 年 
发 生 一 次 无 法 恢复 错误 的 故障 率 是 不 可 接受 的 ， 虽 然 它 对 每 个 用 户 来 说 似乎 可 以 接受 。 

故障 和 错误 之 间 的 区 别 取决 于 容错 的 范围 。 这 里 是 一 个 没有 正式 定义 的 边界 。cache 行 故 
障 的 发 生 可 能 引起 cache 设计 师 的 关注 。 如 果 没 有 任何 形式 的 保护 ，cache 中 的 故障 将 无 法 被 检 
测 到 ， 并 且 cache 的 SDC 错误 还 会 传播 。cache 设计 者 决定 在 容错 中 添加 奇偶 校 验 或 SECDED 
校 验 ， 或 至 少 减少 cache 范围 外 的 SDC 故障 率 。 人 逻辑 设计 人 员 可 能 担心 流水 线 阶段 内 时 序 冲 
突 。 为 了 防止 时 序 冲 突 ， 设 计 者 必须 加 快 那些 电路 中 延迟 接近 于 时 钟 周期 的 脆弱 路 径 。 在 这 种 
情况 下 ， 故 障 的 范围 在 一 个 流水 线 级 内 。 同 样 ， 通 过 检测 错误 的 计算 、 在 CMP 中 的 不 同 核心 
恢复 和 重新 执行 代码 等 ， 一 个 操作 系统 可 以 容忍 片上 多 处 理 器 (CMP) 的 错误 。 在 这 种 情况 
下 ， 容 错 范围 是 整个 处 理 器 ， 只 有 当 在 CMP 中 的 所 有 核心 产生 错误 时 ， 应 用 程序 才 可 能 会 遇 
到 一 个 错误 。 

图 2-8 展示 出 了 cache 范围 之 内 的 三 个 类 别 的 故障 。 图 2-8a 所 示 cache 行 发 生 的 有 SECDED 
保护 的 单 比 特 位 翻转 。 因 此 ， 当 该 位 在 cache 的 范围 之 外 被 处 理 器 读 取 时 ， 错 误 是 可 恢复 的 。 
两 比特 位 翻转 导致 DUE， 如 图 2-8b 所 示 。 这 是 一 个 被 检测 到 的 不 在 容错 范围 内 的 错误 。 最 后 
是 三 比特 位 翻转 故障 引起 的 SDC 错误 ， 如 图 2-8c 所 示 。 


单 比特 翻转 


无 错误 ， 
a) 
双 比特 翻转 
b) 
三 比特 翻转 
We 单 纠 错 双 检 错 码 | 无 记载 数据 损坏 错误 
c) 
图 2-8 在 一 个 cache 行 的 容错 
\ 
2. 6.2 可 靠 性 指标 


可 靠 性 不 像 功率 和 性 能 那样 可 以 通过 度量 诸如 瓦特 和 每 个 指令 周期 来 被 精确 量化 ， 它 只 能 
通过 统计 方法 测定 。 组 件 的 可 靠 度 Ri) 是 时 间 的 函数 ， 是 由 R(t) =N,(1)AN 算 得 的 预期 估计 
值 ， 其 中 ，N.(t) 是 到 时 刻 ;幸存 的 组 件数 量 ,，N 是 组 件 取样 的 总 数目 。 可 以 从 这 个 简单 的 公 
式 中 看 出 ，R(t) 依赖 于 时 间 ， 但 更 重要 的 是 它 依 赖 于 样本 ， 这 意味 着 可 靠 性 测量 是 统计 性 的 。 

工业 上 用 于 测量 元 件 可 靠 性 的 一 个 通用 指标 是 平均 无 故障 时 间 (Mean Time To Failure， 
MTTF) ， 即 一 个 幸存 的 系统 不 发 生 故 障 的 平均 时 间 。 鉴 于 目前 的 计算 机 系统 一 般 可 以 可 靠 地 工 
作 数 年 ，MTTF 通常 以 年 来 衡量 。 
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为 了 准确 地 计算 MTTF， 系 统 设计 者 必须 测量 系统 的 样本 群体 出 错 的 时 间 ， 并 且 一 直 等 待 
直到 系统 中 所 有 的 样品 群体 都 出 错 。 这 两 个 制约 因素 构成 显著 挑战 。 为 了 说 明 这 一 难度 ， 让 我 
们 考虑 三 个 计算 机 系统 的 样本 群体 。 我 们 假设 ， 系 统 设 计 者 观察 这 个 样本 2 年 。 经 过 整整 一 年 
第 一 个 系统 出 现 故障 ， 第 二 个 系统 在 第 二 年 的 年 底 出 错 ， 第 三 个 系统 在 第 二 年 底 仍然 运作 。 如 
果 设 计 者 只 考虑 为 期 两 年 的 观察 时 间 内 的 错误 ， 这 两 个 系统 的 MTTF 为 (1 +2)/2 =1.5 年 。 
观察 样本 中 两 年 后 仍旧 能 使 用 的 第 三 个 系统 ， 设 计 师 不 知道 它 的 MTTF。 如 果 第 三 个 系统 在 第 
三 年 底 恰好 出 错 , 则 MTTF 为 (1+2+3)73 =2 年 。 因 此 ,设计 者 必须 找到 估计 在 观察 期 结束 
时 幸存 的 系统 的 MTTF 数目 的 最 佳 方 式 。 如 果 出 错 率 是 随时 间 恒 定 的 ， 就 可 以 通过 假设 幸存 系 
统 在 未 来 也 将 以 同样 的 速度 出 错 来 估算 MTTF 的 值 。  、 

由 于 电脑 系统 可 能 有 很 长 的 寿命 ， 让 一 个 系统 设计 者 为 等 待 确定 的 MTTF 观察 故障 多 年 是 
不 现实 的 。 为 了 在 更 短 的 时 间 间 隔 内 观察 和 测量 故障 ， 系 统 设 计 师 将 系统 置 于 极端 条 件 下 进行 
测试 ， 比 如 高 温 、 更 高 的 芯片 频率 和 高 电压 。 根据 高 强度 测试 条 件 ， 设计 师 可 以 推断 出 系统 操 
作 在 正常 条 件 下 观察 到 的 MTTF。 

另 一 种 常见 的 可 靠 性 指标 是 FIT (failures-in-time) 率 。 一 个 系统 的 FIT 率 是 在 系统 中 10 
亿 小 时 (超过 100000 年 ) 观察 到 的 发 生 故障 的 平均 数目 。FIT 是 一 种 度量 计算 机 系统 可 靠 性 
的 比 MTTF 更 为 方便 的 指标 。 计 算 机 系统 是 组 件 的 集合 ， 每 个 组 件 都 有 自己 的 TIT。 整 个 系统 
的 FIT 是 通过 将 所 有 组 件 的 FIT 率 简 单 地 累加 在 一 起 计算 的 。 因 为 FIT 具有 累加 性 ， 才 使 FIT 
超越 MTTF 成 为 系统 设计 上 可 靠 性 的 首选 指标 。 

如 果 故 障 率 是 恒定 的 ,那么 FIT 率 可 根据 公式 FIT= 10”/MTTF 计算 出 来 ， 其中，MTTF 的 
单位 是 小 时 。 因 此 ，FIT 大 多 与 MTTFS 成 反比 。 

整个 系统 的 可 靠 性 在 产品 设计 的 早期 阶段 就 已 经 设置 了 FIT 的 目标 值 。 例 如 ，IBM 未 来 系 
统 的 FIT 目标 是 会 导致 SDC 错误 的 114 FIT (相当 于 1000 年 MTTF) 和 导致 DUE 错误 的 4566 
FIT (相当 于 25 年 MTTF)。 整 个 系统 的 FIT 率 被 分 成 几 个 组 件 级 的 FIT 率 。 每 个 组 件 都 被 分 配 
了 一 个 FTT 预算 值 。 每 个 组 件 设计 者 必须 提供 足够 的 误差 校正 和 检测 机 制 ， 以 满足 组 件 的 FIT 
预算 值 。 如 果 一 个 寄存 器 文件 设计 者 估计 寄存 器 文件 的 SDC 的 FIT 率 太 高 ， 那 么 必须 增加 额外 
的 错误 检测 逻辑 ， 如 奇偶 校 验 ， 使 得 寄存 器 文件 SDC 的 FIT 率 在 其 FIT 预算 之 内 。 靖 确 测量 组 
件 的 FIT 率 同时 满足 FIT 预算 ， 在 控制 成 本 方面 至 关 重 要 。 设 计 师 高 估 组 件 的 FIT 率 可 能 会 增 
加 纠 错 代码 取代 简单 的 奇偶 校 验 ， 从 而 导致 更 高 的 可 靠 性 开销 、 更 高 的 系统 成 本 、 更 高 的 功 耗 
和 较 低 的 性 能 。 


2. 6. 3 故障 率 和 老化 


部 件 的 可 靠 性 R(i) 是 一 个 组 件 生存 到 时 间 # 的 概率 。 它 是 时 间 1 的 函数 ,用 R(t) = 
N.(2)AN 计 算 ， 其 中 ，N,(t) 是 存活 到 时 间 :的 组 件 的 数量 ,，N 是 组 件 的 总 数 ; N,(1) 是 未 能 
生存 到 时 间 “ 上 的 组 件 的 数目 ， 等 于 N - N,(1), 一 个 组 件 到 时 间 t 出现 故障 的 概率 为 0(f) =， 
Ni(t)AN, 所 以 Q(t) =1 -R(t)。 

为 了 测量 真实 的 可 靠 性 ， 必 须 有 一 个 无 限 数量 的 部 件 ， 即 N 一 o 。 然 而 ， 在 现实 中 是 不 可 
能 测量 无 限 多 的 组 件 的 可 靠 性 的 ， 所 以 R(1) 通常 从 大 小 为 N 的 一 个 相当 大 的 抽样 中 获得 。 

请 注意 ，0Q(t) 是 一 个 概率 分 布 函 数 ,，f(1) 是 在 时 刻 t 出 错 的 概率 密度 函数 ， 下 面 给 出 
Q(t) 的 导数 : 


f(t) = $00) = 二 人 RCI) = 了 EN, (2.16) 
在 时 间 t 时 的 预期 故障 的 总 数 是 f(t1) x N。 这 种 故障 密度 概率 是 无 条 件 的 。 这 表明 入 个 初 
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始 组 件 中 故障 的 瞬时 数量 随 着 时 间 如 何 变 化 。 一 个 组 件 上 只 有 当 它 存活 到 了 时 间 #t 才 可 以 在 时 间 
t 出错。 在 时 间 t 只 有 WN.(t) =R(1) xN 个 组 件 仍然 存在 。 所 以 幸存 组 件 在 时 间 1 故障 的 概率 是 
通过 将 f(1) xN 除 以 N.(t) 得 到 。h(1) 被 称 为 故障 率 (failure rate) 或 风险 函数 (hazard func- 
tion) ， 其 公式 如 下 : 
h(i) 人 i x N.C) 3 -RX HN,(1) (2.17) 
这 个 风险 函数 是 非 负 的 。 
通常 情况 下 ， 故 障 率 与 时 间 的 函数 遵循 “浴盆 ”曲线 ， 如 图 2-9 所 示 。 早 期 故障 率 高 是 因 
为 有 缺陷 的 组 件 或 者 是 组 件 的 工作 量 很 小 ， 但 它 随 后 迅速 下 降 。 如 果 组 件 在 这 个 阶段 存活 ， 那 
么 就 进入 了 真正 有 用 的 生命 期 ， 故 障 率 恒 定 且 非常 低 。 和 在 这 段 时 间 内 ,可 以 假设 在 恒定 故障 率 
条 件 下 故障 发 生 是 随机 的 。 换 名 话说 ， 故 障 的 偶然 发 生 服 从 泊 松 过 程 。 当 组 件 在 其 真正 有 用 的 
生命 期 内 ， 组 件 的 FIT 率 是 累加 的 ， 因 为 多 个 泊 松 过 程 的 合并 也 是 一 个 泊 松 过 程 ， 其 速率 等 于 
所 有 进程 的 速率 和 。 





故障 率 (h()) 


早期 
故障 | 使 用 寿命 ( 随机 故障 ) 





时 间 ( 
图 2-9 随 着 时 间 而 变化 的 组 件 故 障 率 


在 一 个 组 件 的 生命 中 ， 由 于 种 种 过 程 它 会 被 磨损 ， 我 们 将 在 本 章 后 面 介绍 。 由 于 磨损 ， 组 
件 达到 其 生命 周期 的 第 三 阶段 ， 这 个 阶段 的 故障 率 会 由 于 陈旧 的 电路 故障 激增 。 在 这 一 点 上 该 
组 件 已 经 到 达 它 设计 的 使 用 寿命 的 结束 。 

为 了 避免 发 布 仍 处 于 早期 故障 率 较 高 阶段 的 产品 ， 一 个 被 称 为 老化 测试 (burn-in testing ) 
的 过 程 被 应 用 到 每 一 个 组 件 发 布 之 前 。 老 化 测试 ， 或 简单 老化 〈bur-in) ， 是 一 个 通过 大 量 使 
用 一 个 组 件 以 测试 它 是 否 能 达到 其 真正 有 用 生命 期 的 过 程 。 在 此 过 程 中 坏 的 或 工作 量 少 的 部 件 
都 将 被 丢弃 。 老 化 测试 是 在 压力 的 条 件 (如 高 温 或 高 压 ) 下 进行 的 ， 以 检测 出 那些 在 极端 的 
环境 条 件 下 没有 弹性 的 组 件 。 老 化 测试 可 以 避免 早期 故障 阶段 。 


假设 一 个 部 件 的 故障 率 是 常数 并 且 等 于 A，A =0.001。 一 批 100 万 组 件 样本 当中 5 





年 内 的 出 错 预期 是 多 少 ? 
殿 式 《5517) 有 
_ dR(W) 、 ns 
h(t) ET x RD | {2.180) 
7 el T dR(t) i 
[aq= [ i Xa (2. 19) 
- logR(7) (2.20) 


R(T A CL) 
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五 年 之 后 给 定 的 组 件 出 现 故障 的 概率 为 0(5) =1-R(5) =1-e ”=0.004 988。 因 此 预 
计 在 5 年 内 这 批 100 万 组 件 中 出 错 了 的 组 件 的 数量 是 4988 个 。 请 注意 ,，h(1) 很 容易 被 等 同 于 
f(t) ， 从 而 使 预期 故障 数 是 5000, 不 是 4988，12 太 多 了 ! 这 显示 出 了 两 个 概率 之 间 的 差别 。 丁 


2.6.4 瞬时 故障 


随 着 每 一 代 生 产 工 艺 的 发 展 ， 存 储 在 每 个 存储 单元 (DRAM、SRAM 或 寄存 器 ) 的 电荷 量 
因为 电源 电压 Vy 和 其 电容 的 变化 而 减 小 。 由 于 这 种 趋势 ， 存 储 器 单元 变 得 越 来 越 易 受 高 能 粒 
子 的 侵害 而 导致 瞬时 故障 ， 有 时 也 被 称 为 软 错误 。 瞬 时 故障 不 同 于 由 损耗 而 导致 的 典型 的 故 
障 ， 它 是 半导体 电路 中 特有 的 。 它 们 不 是 组 件 生命 周期 的 环 部 分 ， 如 图 2-9 所 示 。 瞬 时 故障 是 
一 次 性 事件 ， 并 且 不 留任 何 可 以 纠正 错误 的 踪迹 。 

瞬时 故障 是 由 高 能 粒子 撞击 造成 的 。 这 类 攻击 通常 被 称 为 单 粒子 翻转 (Single Event Upset， 
SEU)。SEU 有 两 种 常见 的 原因 : 第 一 个 原因 是 从 芯片 的 封装 内 产生 a 粒子 撞击 ， 这 些 颗粒 是 
由 放射 性 原子 核 释放 出 来 的 ， 例 如 由 存在 于 芯片 封装 和 焊锡 球 的 杂质 所 释放 出 的 镭 ; SEU 的 第 
二 个 原因 是 中 子 撞击 ， 中 子 撞击 主要 是 由 宇宙 射线 的 外 层 空 间 的 活动 引起 的 ， 这 些 宇宙 射线 携 
带 高 浓度 的 质子 ， 而 当 质 子 与 地 球 大 气相 互 作用 ， 它 们 产生 大 量 的 中 子 散 射 。 中 子 通 量 指标 测 
量 了 每 秒 穿 过 lcm 的 中 子 数量 ， 中 子 通 量 依赖 于 高 度 和 地 球 磁场 强度 ， 是 随 位 置 的 变化 而 变 
化 的 。 例 如 ， 在 海拔 为 3 万 英尺 的 中 子 通 量 大 约 是 在 海平 面 的 中 子 通 量 的 220 倍 ， 在 海平 面 上 
操作 计算 机 系统 时 中 子 打 击 比 在 空中 操作 更 少 。 

图 2-10 显示 了 一 个 单 粒子 翻转 的 简单 中 子 击 穿 
例子 。 高 能 量 中 子 撞击 nMOS 晶体 管 。 粒 子 
穿 过 p 衬 底 的 硅 。 随 着 粒子 穿 过 衬 底 ， 它 通 
过 与 硅 原 子 核 相互 作 用 产生 了 电子 空 穴 对 。 
通过 这 些 电 子 空 穴 对 产生 的 电荷 在 扩散 区 生 
成 了 驱动 电子 或 空 穴 的 电场 ， 从 而 产生 感应 
电流 。 如 果 在 SRAM 单元 中 的 电荷 小 于 累积 
电荷 ， 由 感应 电流 累积 的 电荷 会 翻转 SRAM 四 国生 合同 国生 从 二 湖村 
单元 的 值 。 存 储 在 内 存 中 的 电荷 越 弱 ， 粒 子 打击 越 容 易 翻 转 存 储 的 值 。 翻 转 SRAM 单元 的 内 容 
所 需 的 电荷 量 称 为 临界 电荷 (Qi.s) : | 

Qisca cc Cn X Ta (和 22 
其 中 Cs 是 节点 电容 ，Ys 是 电源 电压 。 在 每 一 代 工 艺 发 展 中 ，Cu 和 Ju 都 会 下 降 〈 见 表 2-1 
和 表 2-2) ， 因 此 Qum 以 迅猛 的 速度 减少 。 

瞬时 故障 的 另 一 个 来 源 是 电气 噪声 。 电气 噪声 可 以 由 在 总 线 的 信号 或 电源 分 布 网 之 间 的 串 
扰 造成 。 当 信和 号 通过 控制 逻辑 和 处 理 器 的 功能 单元 中 的 随机 逮 辑 传播 时 ， 它 们 也 可 能 由 于 彼此 
之 间 的 串扰 被 损坏 。 下 面 我 们 重点 介绍 粒子 撞击 造成 的 SEU。 

单 粒 子 翻转 率 (SER) 可 以 基于 众所周知 的 Hazucha 和 Svenson 模型 来 计算 ， 公式 如 下 : 

SER = kx flux x bitarea x ee (2. 23) 
其 中 ,为 常数 ; flux 是 中 子 通 量 ; bitarea 是 对 软 错误 攻击 敏感 的 区 域 面积 ; Qu 是 临界 电荷 ; 
0 是 SRAM 单元 的 电荷 收集 效率 。 要 注意 的 是 bitarea 和 Q.。. 仅 依赖 于 工艺 技术 。 特 别 是 ， 
这 些 参 数 独立 于 操作 环境 。 另 一 方面 ，@。auu 依 赖 于 工作 电压 和 节点 电容 。 例 如 ，cache 中 的 动 
态 变 压 变频 (DVFS) 影响 Qu 的 值 。 

给 定 SER， 在 7. 时 间 内 一 个 时 钟 周 期 发 生 单 粒 子 翻转 的 概率 psg ， 是 由 一 个 时 钟 周期 内 发 
生 翻 转 的 次 数 决定 的 。 这 个 数量 符合 泊 松 分 布 ， 并 且 入 与 由 式 (2.23) 得 到 的 SER 相等 。 一 
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个 周期 内 奇数 次 位 翻转 则 导致 故障 ， 否 则 就 是 正确 的 。 这 样 我 们 就 可 以 精确 地 计算 概率 Pss， 
如 下 : 
pm = (2.24) 


将 来 ,一 些 反 作用 力 将 影响 SEU。 无 论 是 了 或 bitarea 在 每 一 代 工 艺 进步 中 都 减少 ， 使 得 
位 翻转 的 概率 降低 。 然 而 ，Q.s.w 也 在 每 一 代 工 艺 进步 中 减 小 。 尽 管 T. 和 bitarea 的 趋势 是 有 利 
的 ,和 A 与 1/Q,icw 的 指数 关系 占 主导 地 位 ,再 加 上 越 来 越 多 的 存储 器 位 都 挤 在 一 个 芯片 上， 这 
样 会 导致 在 未 来 瞬时 故障 率 显著 地 增加 。 

cache 的 瞬时 故障 

由 于 大 多 数 现 代 微 处 理 器 的 芯片 面积 的 约 50% 通常 被 cache 占用 ,设计 者 相当 重视 保护 缓 
存 避 免 瞬 时 故障 。 如 果 在 cache 行 ， 产生 瞬时 故障 的 故障 位 由 处 理 器 读 取 (无论 是 作为 一 个 取 
指令 或 是 由 负载 返回 的 值 ) ， 则 故障 变 为 错误 。 

保护 cache 避免 瞬时 故障 常见 的 方法 有 错误 检测 和 纠 错 码 。 将 单 比特 的 奇偶 校 验 添 加 到 每 
个 cache 行 可 以 检测 一 比特 位 翻转 ， 从 而 把 潜在 的 SDC 错误 转化 为 一 个 DUE。 一 个 SECDED 代 
码 可 以 纠正 单 比特 错误 和 检测 双 比 特 错误 。 在 这 种 情况 下 ， 单 比特 瞬时 故障 甚至 不 能 作为 故障 
离开 cache 域 。 这 是 计算 机 设计 师 的 选择 保护 级 别 的 责任 。 

这 个 选择 取决 于 以 下 因素 : 

(1) 了 解 问题 的 重要 性 显然 是 首先 要 考虑 的 。 因 此 ， 瞬 时 故障 的 概率 ps 是 第 一 考虑 。 据 
估计 ，3GHz 的 条 件 下 ，65nm 工艺 的 瞬时 故障 的 概率 大 约 是 10“/ (bit 周期 ) 。 不 发 生 瞬 时 故 
障 的 概率 为 1 - ps。 假设 缓存 设计 师 被 给 予 了 FIT 预算 ,设计 师 必须 将 ps 换算 成 FIT 率 。 给 定 
的 ps， 一 简单 的 来 计算 含有 NN 比特 位 cache 的 FIT 率 的 方法 是 ， 计 算 在 高 速 缓冲 中 存储 器 在 一 
个 周期 内 至 少 有 一 个 故障 的 概率 1 - (1 -pss) ”， 也 就 是 说 对 于 1 兆 位 的 cache 在 一 个 周期 内 至 
少 有 一 个 故障 的 概率 为 1 - (1 - ps) ， 换 算 后 为 1150 FIT。 然 而 ， 这 种 FIT 率 被 严重 高 
估 ， 因 为 它 假定 cache 行 的 任何 一 位 故障 都 会 导致 计算 错误 。 实 际 上 ,一 个 损坏 的 cache 行 可 
能 是 “ 死 的 ”( 也 就 是 说 ， 在 它 被 删除 之 前 它 永 远 不 会 被 再 次 访问 ) ， 或 者 故障 位 无 法 被 处 理 
器 读 取 和 使 用 ， 也 不 会 使 计算 出 错 。 基 本 TIT 率 被 称 为 本 征 (intrinsic) FIT 率 。 本 征 FIT 率 是 
用 来 粗略 决定 设计 人 员 可 以 选择 的 保护 类 型 的 第 一 阶 度量 。 

(2) 保护 的 面积 开销 是 第 二 考虑 因素 。 奇 偶 校 验 的 面积 开销 是 每 个 受 保护 的 数据 块 1 位 。 
假设 一 个 缓存 每 个 64 字 节 数据 块 使 用 1 位 校 验 位 ， 面 积 开销 为 4/512 (小 于 0.2% ) 。SECDFED 
开销 随 被 保护 数据 的 大 小 改变 。 对 于 一 个 64 字 节 的 cache 行 ，SECDED 开销 为 11 位 ，2% 的 比 
特 开销 s SECDED 码 保护 每 一 个 32 位 字 需 要 7 位 或 者 超过 20% 的 比特 开销 。 

(3) 除了 位 的 开销 ,保护 也 可 能 会 增加 cache 行 的 访问 等 待 时 间 ， 因 为 错误 检测 或 校正 必 
须 在 处 理 器 使 用 的 数据 之 前 进行 。 就 像 位 开销 ，SECDED 检查 需要 的 时 间 随 每 个 码 保护 的 字 节 
数 改变 。 例 如 ， 检 查 SECDED 代码 保护 64 字 节 行 可 能 会 在 3GHz 处 理 器 中 增加 三 个 周期 的 
cache 访问 延迟 。 

体系 结构 的 脆弱 性 因素 (AVF) 

本 征 FIT 率 高 佑 了 一 些 硬件 的 脆弱 性 ， 从 而 导致 设计 师 过 度 提 供 硬件 保护 。 例 如 ，cache 
中 不 是 每 个 SRAM 单元 都 会 转换 成 一 个 计算 错误 。 一 个 SEU 的 影响 可 能 被 各 种 各 样 的 原因 掩 
饰 ， 例如， 损坏 的 cache 行 是 无 效 的 ， 在 读 取 之 前 它 已 经 被 覆盖 了 ， 它 是 空 的 或 者 在 cache 行 
中 的 块 没有 被 再 次 引用 。AVF 分 析 技 术 将 这 些 因素 考虑 进去 ， 改 善 了 本 征 FIT 率 的 严重 高 估 的 
问题 。 该 AVF 表征 了 在 存储 单元 中 发 生 一 个 用 户 可 见 的 比特 翻转 错误 的 概率 。 

AVF 分 析 的 基本 前 提 是 ， 只 有 当 它 变 得 对 用 户 可 见 时 ， 位 翻转 才 成 为 一 个 错误 。 由 于 微 架 
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构 状 态 是 用 户 不 可 见 的 ， 在 微 架构 的 任何 错误 都 可 以 忽略 不 计 ， 除 非 它 传播 到 体系 结构 状态 。 
例如 ， 在 分 支 预测 表 中 ， 硬 件 的 粒子 撞击 不 影响 执行 的 正确 性 ， 但 它 会 导致 不 好 的 分 支 预测 。 

在 程序 执行 期 间 ， 根 据 其 是 否 影响 了 执行 ， 每 个 比特 被 分 类 为 结构 上 相关 的 或 不 相关 的 。 
如 果 一 个 位 影响 到 执行 的 结果 ， 则 被 认为 是 ACE ( 即 要 求 体系 结构 正确 地 执行 )， 否 则 它 是 
un-ACE。 一 个 基本 的 存储 单元 (一 位 存储 部 件 ， 如 一 个 触发 器 、 一 个 SRAM 单元 或 者 DRAM 
单元 ) 的 AVF 是 一 个 包含 ACE 位 的 时 间 的 一 部 分 。 当 存储 单元 的 碎片 时 间 里 包含 一 个 un-ACE 
位 时 ， 单 元 上 的 任何 瞬时 性 故障 在 体系 结构 级 别 是 无 害 的 。 多 比特 的 硬件 结构 的 AVF 是 所 有 
的 基本 存储 单元 的 AVF 的 平均 值 ， 例 如 cache 或 者 程序 计数 器 。 计 算 结构 的 有 效 FIT 率 时 ， 用 
它 内 部 的 FIT 率 简单 地 与 其 AVF 相 乘 (或 降级 ) 。 从 本 质 上 说 ， 在 一 个 位 的 计算 完整 性 影响 了 
AVF 分 析 。 空 间 脆 弱 性 (与 位 架构 相关 的 ) 和 时 间 脆 弱 性 (位 曝光 会 持续 多 久 ) 有 助 于 改变 
内 在 FIT 率 大 小 , 使 FIT 率 与 硬件 的 正确 性 相关 更 强 。 

L1 cache 位 单元 的 AVF 分 析 

为 了 进一步 说 明 AVF 的 计算 ,考虑 在 LI cache 行 影响 位 单元 的 事件 的 顺序 ， 如 图 2-11 所 
示 。 存 储 器 块 在 时 间 7 被 加 载 到 cache 行 。 存 储 在 cache 行 中 的 位 由 处 理 器 在 周期 时 间 7, 更 
新 。 在 时 间 7; 处 理 器 读 取 位 〈( 取 指令 或 数据 ) ， 这 是 指令 提交 执行 的 一 部 分 。 在 时 间 7 位 于 
该 行 的 块 被 删除 。 位 单元 在 7, 、7; 和 7 被 翻转 三 次 。 在 时 间 中 翻转 不 影响 执行 ， 因 为 在 时 间 
7, 有 故障 的 位 不 能 被 处 理 器 读 出 并 覆盖 。 在 时 间 7 的 翻转 不 影响 执行 ， 因 为 位 在 该 块 被 蔡 换 
之 前 不 能 被 处 理 器 访问 。 然 而 ， 在 时 间 胞 的 位 翻转 导致 一 个 错误 ， 因 为 错误 的 值 破 坏 了 时 间 
7 的 执行 。 


数据 块 处 理 器 处 理 器 加 载 比特 位 数据 块 
加 载 到 L1 写 比特 位 至 结构 状态 被 替换 
| | 单 粒 子 翻 转 | | 
no a To Ts 万 Ts ed 
结构 上 结构 上 结构 上 
不 易 受 攻击 的 易 受 攻击 的 不 易 受 攻击 的 | 


图 2-11 Ll cache 行 中 的 位 单元 事件 的 时 间 轴 


本 征 FIT 率 假设 该 位 在 周期 7; = Tu 的 执行 窗口 是 脆弱 的 。 而 AVF 分 析 认 为 该 比特 只 在 周 
期 7; -了 7 的 窗口 内 是 脆弱 的 。 因 此 ， 位 单元 的 AVF 用 (有 -了 7))A(T 一 2) 计算。 然后， 位 
单元 的 本 征 FIT 通过 位 固有 的 FIT 率 与 AVF 相 乘 得 到 新 的 AVF-derated。 


2.6.5 间 吹 性 故障 


故障 的 第 二 类 包括 芯片 使 用 期 间 因 设备 的 老化 和 环境 条 件 下 产生 的 压力 而 造成 的 间 吹 性 故 
障 。 设 备 老化 也 被 称 为 耗损 。 随 着 时 间 的 推移 晶体 管 老化 ， 它 们 的 电气 特性 慢 慢 降低 ， 如 
71， 耗损 速度 随时 间 变 缓慢 ,在 某 些 情况 下 甚至 可 以 逆转 。 

热 应 激 条 件 或 极端 电压 会 加 速 装置 劣化 ,并 造成 芯片 的 时 序 故障 ， 甚 至 发 生 随 机 比特 番 
转 。 这 些 故 障 之 所 以 被 称 为 间 歌 的 (intermittent) ， 是 因为 它们 可 能 会 持续 到 芯片 温度 下 降 或 
电压 上 升 。 间 欢 性 故障 可 以 持续 一 段 时 间 ， 然 后 消失 。 因 此 间 积 性 故障 的 电路 应 暂时 停 用 , 直 
到 造成 故障 条 件 被 移 除 。 

间 砍 性 故障 依赖 于 芯片 已 经 运作 的 时 间 和 其 他 数 个 物理 现象 。 在 此 我 们 将 介绍 一 下 导致 间 
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吹 性 故障 最 常见 的 物理 现象 。 本 节 的 目标 是 在 很 高 层次 上 从 体系 结构 的 角度 概述 ， 而 不 是 描述 . 
这 些 故障 背后 的 物理 学 。 

电 迁 移 

众所周知 ， 电 迁移 (Electro Migration，EM) 是 导致 处 理 器 的 线 中 间 吹 性 故障 来 源 。 线 的 
尺寸 随 每 代 工 艺 减 小 ， 如 导线 宽度 从 65nm 工艺 技术 的 120nm 降低 到 35nm 工艺 技术 的 60nm。 
随 着 线 宽度 减 小 ， 导 线 内 的 电流 密度 增 大 。 如 果 把 电流 密度 放 在 现代 微 处 理 器 内 部 ， 则 现在 一 
个 典型 的 服务 器 处 理 器 工作 电压 为 1V 时 消耗 超过 100W 的 功率 ， 导 致 处 理 器 的 电流 达到 100A 
(已 = 扩 ) 。 给 定 极 窗 的 导线 尺寸 ， 在 导线 中 的 电流 密度 可 达到 每 平方 厘米 百 万 安培 。 在 这 种 极 
端的 电流 密度 的 条 件 下 ， 电 线 中 的 金属 原子 与 电子 之 间 的 碰撞 加 快 ， 并 且 向 电子 流 的 方向 移 
动 。 如 果 电 流 是 单 向 的 ， 那 么 ， 由 于 电子 的 持续 推动 ， 一 些 金属 原子 永久 地 迁移 到 电线 的 另 一 
端 。 金 属 原子 的 单 向 电流 流动 运动 被 称 为 电 迁 移 。 

EM 的 效果 是 ， 该 金属 在 导线 的 一 端 原子 枯竭 ， 而 这 些 原子 在 另 一 端 聚集 。 枯 竭 导致 一 个 
空白 ， 并 积累 起 来 产生 堆 集 ( hillock deposit) 。 随 着 空白 区 域 尺寸 的 增加 ， 它 最 终 把 导线 切割 
为 两 部 分 ， 由 此 引起 了 开路 故障 。 同 样 ， 随 着 堆 集 天 小 的 增加 ， 失 效 的 堆 最 终 可 能 会 触及 相 邻 
的 导线 ， 从 而 导致 短路 故障 。 在 一 个 永久 性 的 开路 故障 发 生 之 前 ， 流 过 耗 尽 区 的 电流 遇 到 阻 值 
较 高 的 线 电阻 会 放 热 ， 提 高 温度 并 减 慢 电路 速度 。 随 着 电阻 的 增加 ， 若 电压 是 固定 的 ， 电 流 会 
减 小 ， 从 而 可 能 导致 间歇 性 故障 。 例 如 ， 当 导线 向 多 个 门 输 送 ， 并 且 电 流 逐 渐 下 降 到 不 能 够 驱 
动 所 有 的 门 的 一 个 点 ， 那 么 通过 线 接收 数据 的 一 个 电路 可 能 会 失效 。 

人 @E 驳 在 金属 层 之 间 的 孔 的 电 迁 移 ”虽然 任何 电线 都 易 受 EM 影响 ， 但 在 一 个 处 理 器 通 
信 结 构 中 连接 不 同 的 金属 层 的 过 孔 通常 被 认为 是 最 容易 受到 EM 影响 。 处 理 器 内 部 子 部 件 通过 
排列 在 几 个 金属 层 (一 般 7~10 的 金属 层 ) 之 间 的 导线 进行 通信 。 通 常 ， 层 间 的 通信 是 通过 有 
大 量 单 向 电流 流 过 的 金属 过 孔 来 实现 的 ， 金属 层 2 
如 图 2-12 所 示 。 

孔 1 内 电流 的 流动 在 金属 层 1 (MI) 
和 金属 层 2 (M2) 之 间 是 单 向 的 。 由 于 电 





子 从 MI 通过 孔 1 流向 M2， 通 过 减少 孔 1 名 和 
的 有 效 宽度 可 将 空隙 创建 出 来 。 另 一 方 
面 ， 当 电子 从 M2 流向 Ml ， 它 们 推动 金属 图 2-12 在 孔 中 电 迁 移 的 效果 
原子 在 孔 2 创造 了 堆 。 4 


在 SRAM 单元 的 电 迁 移 ”图 2-13 显示 了 存在 于 处 理 器 设计 的 单 向 电流 的 另 一 个 
例子 。 图 中 表明 一 个 6T 的 SRAM 单元 适用 于 处 理 器 的 几乎 所 有 的 存储 结构 ， 例 如 寄存 器 堆 ， 
重 排序 缓冲 区 ， 以 及 加 载 /存储 队列 这 个 6T 单元 是 由 4 个 交叉 耦合 的 反 相 器 和 两 个 作为 传输 
的 晶体 管 组 成 ， 在 图 中 标注 为 P! 和 P2 。 传 输 晶 体 管 被 连接 到 一 对 位 线 (BL 和 BL) 。 位 线 在 顶 
部 连接 了 预 充 电 逮 辑 ， 在 底部 连接 了 一 个 读 出 放大 器 。 在 读 取 操作 期 间 位 线 首 先 被 预 充 电 到 
au。 如 果 内 存单 元 存储 了 0， 那么 晶体 管 Pl 允许 电流 通过 ,而 P2 不 允许 。 如 果 内 存单 元 存储 
为 1， 那 么 晶体 管 P2 允许 电流 通过 ,而 Pl 阻止 。 在 两 个 传输 晶体 管 中 不 同 电流 流动 引起 位 线 
之 间 的 电压 差 。 通 过 读 出 放大 器 检测 两 个 位 线 之 间 的 电压 差 来 检测 0 或 1。 

在 这 里 要 注意 的 是 ， 无 关 紧 要 的 值 被 读 出 ， 电 流 总 是 在 连接 位 线 到 传输 晶体 管 的 电线 中 沿 
相同 方向 流动 ， 即 从 位 线 流向 存储 器 单元 。 由 于 性 能 的 原因 ， 大 多 数 处 理 器 使 用 不 同 的 导 通 晶 
体 管用 于 读 取 和 写 人 存储 单元 。 例 如 ， 单 一 的 问题 处 理 器 可 能 需要 两 个 读 端口 和 一 个 写 端口 访 
问 寄存 器 堆 。 两 个 读 端口 用 两 对 导 通 晶体 管 实现 ， 这 种 晶体 管 与 用 于 写 人 寄存 器 文件 的 导 通 唱 
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图 2-13 在 SRAM 单元 电 迁 移 效果 


体 管 对 是 相互 独立 的 。 因 此 ， 每 次 有 端口 上 的 读 操作 时 ， 具 有 两 个 读 端 口 的 四 个 传输 晶体 管 在 
单 向 电流 的 压力 下 是 有 效 的 。 随 着 时 间 的 推移 ， 该 连接 位 线 到 读 出 端口 的 旁 路 晶体 管 的 导线 受 
到 电 迁 移 的 影响 ， 导 致 间歇 性 的 电路 故障 最 终 演变 为 硬件 故障 。 

如 果 电 流 的 流动 可 以 改变 ， 则 电 迁 移 效 应 可 以 被 恢复 。 然 而 在 许多 情况 下 改变 电流 流动 的 
方向 是 不 切实 际 的 。 在 例 2. 2 中 ， 电 流 不 能 在 读 取 端口 改变 。 然 而 ， 如 果 相 同 的 导 通 晶体 管 是 
读 写 共享 的 ， 那 么 写 0 或 1 可 以 改变 两 个 传输 晶体 管 中 一 个 的 电流 流动 的 方向 。 共 享 读 写 端口 
可 以 用 于 提高 可 靠 性 。 a 

负 偏 压 温度 不 稳定 性 (NBTI) 

NBTI 主要 关注 pMOS 器 件 的 可 靠 性 。 参 看 图 2-2 中 的 说 明 ，nMOS 晶体 管 使 用 p 型 体 (也 
称 为 p 阱 ) ， 在 p 型 体 中 有 两 个 被 称 为 源 极 和 漏 极 的 重 掺 杂 的 n 型 区 域 被 扩散 到 p 型 衬 底 中 。 
另 一 方面 ，pMOS 晶体 管 具 有 n 型 体 和 p 型 的 源 极 和 漏 极 。 在 pMOS 晶体 管 中 多 数 载 流 子 是 电 
子 ， 为 创建 一 个 耗 尽 区 栅 极 电压 必须 是 负 的 。 一 旦 栅 极 电压 小 于 ( 负 的 ) 阅 值 电压 时 ， 正 空 
穴 组 成 的 反 转 层 在 邻近 栅 极 的 区 域 形 成 导电 沟 道 。 

在 pMOS 晶体 管 的 制造 期 间 ， 大 部 分 的 硅 原 子 结 合 氧 原子 在 栅 极 与 n 型 体 之 间 形 成 了 Si0， 
绝缘 体 。 然 而 ， 由 于 制造 不 精确 ， 一 些 硅 原子 与 氢 原 子 在 硅 衬 底 和 栅 氧 化 层 的 交界 处 结合 。: 
PMOS 器 件 具有 负 的 栅 极 偏 压 ， 即 所 =0，Vs = Vo = Vw 时 ， 若 器 件 的 工作 温度 较 高 ， 那 么 氢 原 
子 会 与 硅 分 离 。 由 于 栅 极 带 有 负电 荷 性 ， 上 述 的 氨 原 子 向 栅 极 漂移 悬空 的 硅 原 子 留 在 在 硅 衬 
底 和 机 氧化 物 之 间 。 甚 空 硅 原 子 带 着 由 氨 原 子 留 下 的 空 穴 漂 向 栅 极 。 在 棚 氧 化 物 和 硅 衬 底 的 边 
界 处 ， 空 穴 聚 集 产生 了 空 穴 的 导电 沟 道 。 当 在 栅 极 加 负 偏 置 电压 时 , 即 V,= Vs 和 且 Vs=Vs, 氢 
原子 又 被 吸引 到 悬空 硅 原 子 的 周围 ， 导 电 通 道 消 失 ， 从 而 从 NBTI 的 影响 中 恢复 。 如 果 门 是 正 
偏 压 ， 即 Vc。 =V,， 且 从 =0， 会 使 氢 原 子 流向 硅 的 过 程 加 速 。 、 

图 2-14a 表示 NBTI 的 应 激 阶段 。 当 V, =0 时， 和 氢 原 子 漂 向 栅 极 ， 在 栅 氧 化 层 和 衬 底 的 交 
界 处 形成 空 穴 的 反 转 层 。 恢复 阶段 如 图 2-14b 所 示 。 当 VV = Vy 时， 大 部 分 的 氧 原子 朝 硅 回 迁 。 
然而 ， 恢 复 并 不 完整 ， 因 为 一 些 氧 原子 永久 地 留 在 了 栅 极 ， 从 而 使 得 空 穴 在 衬 底 缓慢 地 积累 。 

恢复 阶段 后 留 下 的 空 穴 吸引 着 在 na 阱 栅 极 氧化 物 的 电子 。 因 此 ， 下 一 次 pMOS 晶体 管 导 通 
时 ， 为 形成 在 ma 阱 中 排斥 电子 的 传导 通道 高 电压 是 必需 的 。 该 电压 的 增加 实质 上 提高 了 立 值 电 
压 。 因 此 ， 随 着 时 间 的 推移 ， 由 于 负 偏 压 的 反复 施加 ， 阔 值 电压 逐步 降低 ， 并 且 该 晶体 管 的 开 
关 速 度 也 降低 。 在 所 有 处 理 器 中 的 不 同 的 微 架 构 结 构 中 ，cache 是 最 容易 受到 NBTI 影响 而 减速 
的 。SRAM 缓存 具有 密集 的 pMOS 器 件 (每 比特 两 个 pMOS 器 件 ) ， 以 及 许多 储存 为 零 的 缓存 
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位 ， 因 为 大 多 数 数据 项 的 高 阶 位 为 零 。 









b ) 恢复 阶段 
图 2-14 pMOS 的 NBTI 效 应 


图 2-15 显示 了 NBTI 应 激 因素 被 移 除 时 ， 部 分 靖 值 电压 的 恢复 过 程 。 从 时 间 Tu 到 了， 
pMOS 器 件 在 高 温 下 经 历 了 栅 极 到 源 极 的 负 偏 压 。 因 此 ， 阔 值 电压 开始 增加 。 在 也 到 开 之 间 ， 
负 偏 压 被 移 走 。 在 此 期 间 ， 该 pMOS 器 件 迅 速 开 始 恢复 ， 并 且 阔 值 电 压 开始 降低 ， 但 它 并 不 能 
完全 恢复 基本 的 闽 值 电压 。 在 允 时 刻 ， 当 负 偏 压 被 重 施 加 ， 阔 值 电压 再 次 增加 。 如 图 2-15 所 
示 ， 在 每 个 应 激 和 恢复 周期 ， 阔 值 电压 随 着 时 间 的 推移 逐渐 增加 。 


阅 值 电压 增 大 (| hl) 





<4》 
恢复 时 间 





电路 生命 周期 
图 2-15 NBTI 的 部 分 恢复 


与 时 间 相 关 的 介质 击 穿 (TDDB) 

TDDB 是 由 栅 极 电介质 材料 在 较 长 的 时 间 内 损耗 造成 的 击 穿 ， 它 在 栅 极 氧化 层 中 产生 了 导 
电 通 路 。 图 2-16a 和 图 2-16b 说 明了 TDDB 造成 的 渐进 性 退化 。 晶 体 管 的 概 极 氧化 层 被 认为 是 
绝缘 体 ， 这 意味 在 有 栅 极 氧化 物 内 没有 电荷 载体 。 由 于 多 种 原因 ， 如 老化 和 制造 不 精确 ， 陷 旱 
在 栅 氧 化 层 缓慢 积累 。 这 些 陷 阱 在 图 中 被 表示 为 在 栅 极 氧化 物 的 孔 。 随 着 每 一 代 加 工 工艺 中 晶 
体 管 的 玉 十 缩小 和 电源 电压 的 降低 ， 为 了 在 晶体 管内 形成 具有 更 低 电 源 电 压 的 导电 沟 道 ， 栅 极 
氧化 层 的 厚度 也 减 小 到 的 只 有 几 个 原子 厚 。 因 为 栅 极 氧化 层 的 厚度 减 小 ， 在 栅 极 与 衬 底 之 间 形 
成 导 通 路 径 只 需要 连接 几 个 孔 。 电 流 流 过 栅 极 与 衬 底 之 间 的 这 些 导电 路 径 ， 导 致 介 电 层 的 击 
穿 。 栅 极 泄 漏电 流 使 源 极 和 漏 极 之 间 的 主要 驱动 电流 减 小 了 。 驱 动 强度 的 减少 会 减 慢 装置 ， 最 
终 导 致 时 序 违规 。 与 NBTI 和 电 迁 移 不 同 ，TDDB 退化 是 不 能 自我 恢复 的 ， 并 且 最 终 导致 永久 
性 设备 故障 。 
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2-16 TDDB 退化 


2. 6.6 永久 性 故障 


故障 的 最 后 一 类 是 永久 性 故障 ， 诸 如 stuck-at-1 和 stuck-at-0 故障 。 永 久 性 故障 的 原因 可 能 
是 芯片 生产 制造 不 精确 。 制 造 缺陷 在 老化 过 程 中 得 以 确定 。 永 久 性 故障 也 可 能 是 一 个 间歇 性 故 
障 持续 的 后 果 。 例 如 ， 如 果 单 向 电流 持续 通过 一 种 金属 通道 ， 电 迁移 引起 的 金属 原子 迁移 最 终 
造成 裸 线 ， 导 致 永久 性 故障 。 间 歇 性 故障 向 永久 性 故障 的 演变 在 老化 期 间 很 难 被 检测 到 。 很 多 
我 们 所 讨论 的 间歇 性 故障 发 生 在 应 激 周期 后 ， 即 使 加 强 老化 过 程 也 不 能 轻易 复 现 : 

当 检测 到 永久 性 故障 ， 逻 辑 块 必须 被 隔离 并 停 用 。 该 块 的 关键 性 决定 了 采取 何 种 措施 。 一 
个 核 的 元 余 功 能 单元 的 永久 性 故障 可 能 通过 永久 停 用 整个 单元 来 解决 。 存 储 结构 的 永久 性 故障 
可 以 通过 禁用 该 单元 的 单元 格 来 解决 。 在 这 种 情况 下 ， 尽 管 性 能 水 平 降低 了 ， 但 处 理 器 将 保持 
正常 运行 。 如 果 这 个 错误 的 层次 是 不 可 接受 的 ， 整 个 芯片 可 能 被 禁用 ， 并 且 它 的 线程 迁移 到 相 
同 处 理 器 的 其 他 核 上 ， 或 者 它 可 以 被 线程 调度 程序 用 于 处 理 低 优先 级 的 线程 。 最 后 ， 如 果 非 元 
余 核 单元 〈 如 指令 译 码 器 ) 有 故障 ， 核 必须 被 禁止 ， 目 前 分 配给 它 的 线程 可 能 会 停止 〈 致 命 
错误 ) ， 整个 核 必须 被 水 久 待 用。 容错 系统 中 的 系统 软件 可 以 从 这 些 错误 千 恢 复 ， 通过 定期 地 
检查 线程 和 回 滚 ， 从 最 新 的 检查 点 继续 软件 的 执行 。 


2. 6.7 工艺 偏差 及 其 对 故障 的 影响 


随 着 技术 的 发 展 ， 我 们 期 待 器 件 参数 变化 的 幅度 会 随 着 每 一 代 工 艺 尺 寸 的 减 小 而 增 大 。 这 
些 偏差 有 两 个 主要 来 源 。 首先 在 如 今 的 工艺 水 平 下 ， 晶 体 管 的 栅 极 长 度 要 比 光 蚀 刻 装 置 的 波长 
短 。 用 于 蚀刻 65nm 晶体 管 的 光 的 波长 是 193nm。 不 幸 的 是 ， 晶 体 管 的 宽度 和 光 的 波长 之 间 的 
间隙 预计 在 每 一 代 生 产 工艺 都 会 增长 。 这 个 间隙 会 导致 within- die 和 die-to- die 的 波动 。 第 二 ， 
由 于 特征 尺寸 的 减 小 ， 在 晶体 管 沟 道中 的 摊 杂 原子 的 数量 旦 指数 降低 。 例 如 ,在 一 个 65nm 的 
晶体 管 沟 道中 ， 摊 杂 剂 原子 数 只 有 100 左右 ， 即 使 摊 杂 剂 的 原子 数 产 生 很 小 的 变化 也 可 能 显著 
改变 晶体 管 的 电 特 性 。 

器 件 偏差 可 大 致 归 类 为 die-to- die 偏差 ,随机 的 (不 相关 ) within- die 偏差 ， 以 及 系统 的 
(相关 的 ) within-die 偏差 。 由 于 die-to- die 偏差 ， 相 同 的 晶 圆 制造 的 必 片 彼此 有 不 同 的 行为 。 
每 个 芯片 可 能 会 有 不 同 量 的 漏电 流 ， 不 同 的 装 值 电压 ， 或 不 同 的 时 间 延 迟 。 这 种 die-to- die 偏 
差 甚 至 存在 于 当前 的 工艺 技术 中 。 业 界 解 决 这 些 die-to-die 偏差 的 方案 是 分 级 (binning)。 分 级 
是 将 芯片 基于 它们 的 表现 (主要 是 根据 工作 频率 ) 分 到 不 同 的 性 能 箱 中 ， 并 且 根 据 它 们 的 性 
能 箱 确定 芯片 价格 的 过 程 。 由 于 在 一 个 箱 中 的 芯片 并 不 一 定 具 有 相同 的 性 能 ， 最 低 的 性 能 芯片 
实际 上 代表 了 整个 箱 中 芯片 的 性 能 以 及 整体 收入 。 因 为 die-to- die 偏差 不 断 放 大 ， 更 多 的 芯片 
被 放置 在 更 低 性 能 箱 中 ， 这 会 显著 影响 收入 。 

die-to- die 偏差 是 通过 分 级 的 方法 解决 的 ， 然 而 within- die 偏差 更 难 解 决 ， 这 是 因为 在 一 个 
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芯片 内 ， 晶体管 的 within-die 波动 在 芯片 的 不 同 部 分 也 许 有 不 同 的 行为 。CAD 工具 和 内 置 自 测 
试 机 制 在 很 大 程度 上 依赖 于 晶体 管 的 特性 ， 并 且 无 论 晶 体 管 在 芯片 上 的 哪个 位 置 都 假定 给 定 的 
晶体 管 有 同样 的 行为 。 因 为 如 果 这 种 假设 被 打破 ,设计 会 变 得 复杂 得 多 。 例 如 ， 不 能 再 通过 简 
单 地 对 每 一 个 阶段 中 的 关键 路 径 的 门 计数 来 假设 流水 是 平衡 的 。 

within-die 偏差 可 以 是 随机 的 或 相关 的 。 相 关 within-die 偏差 也 称 为 系统 偏差 ， 在 经 历 了 相 
似 的 老化 过 程 的 临近 器 件 中 发 生 。 系 统 偏差 比 随 机 偏差 影响 要 小 。 其 原因 是 ， 在 关键 路 径 的 设 
备 为 避免 连接 延迟 是 在 空间 共存 的 。 因 此 ， 在 系统 偏差 中 ， 当 关键 路 径 上 的 一 个 单元 受到 负面 
影响 ， 则 所 有 其 他 关键 路 径 的 单元 有 可 能 以 类 似 的 方式 被 影响 。 另 一 方面 ， 与 不 相关 的 随机 偏 
差 相 比 ， 关 键 路 径 中 的 不 同 单元 可 能 潜在 地 具有 可 以 彼此 抵消 的 相反 的 偏差 。 

工艺 偏差 的 真正 影响 是 前 面 所 讨论 的 各 种 来 源 的 间歇 性 故障 的 恶化 。 例 如 ,工艺 偏差 可 能 
导致 制造 阶段 在 导线 中 的 金属 原子 的 数目 不 平衡 。 当 导线 是 由 一 个 单 向 电流 控制 ， 就 加 速 了 空 
洞 和 堆 的 形成 。 同 样 工艺 偏差 会 引起 氧化 层 厚 度 的 微小 差别 ， 若 一 个 特定 的 设备 的 氧化 物 厚 度 
比 标 称 厚度 更 薄 ， 该 设备 比 平常 更 快 遭 受 TDDB 效应 。 由 工艺 偏差 引起 的 间歇 性 故障 会 更 快 引 
起 永久 性 故障 。 


习题 
2. 1 通常 用 来 衡量 一 个 VLSI 的 设计 质量 的 指标 一 直 是 面积 x 延迟 (4D)。 然而 ， 功 耗 和 能 耗 在 设计 上 
导致 了 新 的 约束 。 这 种 约束 体现 在 新 的 指标 上 ， 如 功 耗 (P) (对 于 热 和 包装 的 问题 )， 能 耗 (PD) 
(对 于 电池 供电 的 嵌入 式 系统 ),“ 能 耗 延 时 ( PD) (对 于 工作 站 ) ， 以 及 能 耗 延 时 的 二 次 方 (PD ) 
(对 于 高 性 能 系统 ) 。 我 们 基于 这 4 个 指标 对 这 几 个 机 器 的 架构 进行 比较 ， 参考 由 式 (2. 12) 和 式 
(2.14) 给 出 的 动态 和 静态 功 耗 的 公式 进行 解答 。 
基准 机 器 是 一 个 单 周期 处 理 器 ， 这 个 处 理 器 会 以 频率 了 每 周期 内 执行 一 条 完整 的 指令 。 
(a) 参考 上 述 基 准 机 器 对 下 列 设计 〈 仅 考虑 动态 功 耗 ) 用 4 个 度量 〈P, 已 ，PD ，PD ) 估计 性 能 
比率 : 
。 .五 级 流水 线 主 频 为 5f。 
。 五 级 流水 线 主 频 为 /。 
。 五 路 多 处 理 器 ， 其 中 每 个 处 理 器 都 是 单 周期 CPU， 主 频 为 了 。 
。 五 路 多 处 理 器 ， 其 中 每 个 处 理 器 是 五 级 流水 线 ， 主 频 为 5f。 
(b) 重新 计算 〈a) ， 仅 考虑 静态 〈 油 露 ) 功 耗 。 
(ec) 针对 不 同 应 用 总 结 并 提出 设计 建议 。 
2.2 表 2-1 表明 了 该 工艺 变更 导致 电源 电压 降低 1/S。 不 过 ， 也 有 明显 的 迹象 表明 ， 将 来 进一步 的 电压 
缩放 就 会 跟 不 上 这 个 步伐 。 
(a) 假设 将 来 电源 电压 不 再 降低 ,保持 不 变 。 根 据 这 一 假设 ,生成 一 个 具有 新 的 器 件 和 特色 的 
表 2-2。 
(b) 请 评论 在 这 一 新 的 假设 条 件 下 ， 哪 个 设备 /线材 的 特性 将 进一步 恶化 ， 哪 个 的 特性 变 得 更 好 。 
(ec) 假设 将 来 电压 和 立 值 电压 都 保持 不 变 。 根 据 这 一 假设 ,依据 新 的 设备 /线材 的 特性 生成 一 个 新 
的 表 2-2。 
(d) 请 评论 在 这 一 新 的 假设 条 件 下 ， 哪 个 设备 /线材 的 特性 将 进一步 恶化 ， 哪 个 的 特性 变 得 更 好 。 
2.3 假设 在 硬件 功能 块 所 做 的 工作 相当 于 64F04 延迟 。 为 了 降低 动态 功 耗 设计 师 有 一 个 选择 一 一 要 人 么 
使 用 流水 线 ， 要么 使 用 并 行 处 理 功能 块 。 
(a) 设计 人 员 可 以 将 64F04 延迟 功能 块 设计 为 四 级 流水 线 。 假 设 供给 流水 线 级 的 数量 呈 线 性 降低 。 
流水 线 设计 的 总 动态 功 耗 与 没有 流水 线 的 基准 之 间 有 多 少 差别 ? 
(b) 流水 线 不 是 免费 的 ; 它 有 一 个 锁 存 器 的 延迟 开销 。 假 设 电 源 电 压 与 流水 线 级 的 数目 线性 减 小 ， 
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但 在 每 个 流水 线 阶段 有 两 个 F04 延迟 相当 于 在 两 个 流水 线 阶段 之 间 浪 费 了 锁 存 器 。 如 果 题 中 
基准 设计 被 分 成 8 个 阶段 ， 功 耗 “〈 与 基线 相 比 ) 是 多 少 ? 如 果 设 计 被 分 成 16 个 阶段 ， 功 耗 是 
多 少 ? 在 流水 线 深度 为 多 少时 增加 新 的 流水 线 级 会 使 增 量 效 益 变 成 负数 ? 

(e) 设计 者 选择 使 用 并 行 处 理 来 代替 流水 线 以 降低 功 耗 。 如 果 64F04 的 设计 是 重复 4 次， 需要 多 
大 功 耗 ? 

(b) 并 行 处 理 并 不 总 是 容易 做 到 。 考 虑 以 下 情况 ， 每 N 个 并 行 操作 后 ， 系 统 需要 顺序 地 执行 接 下 
来 的 M 个 操作 。 在 顺序 操作 中 只 有 一 个 被 复制 的 单元 可 以 使 用 ， 而 所 有 其 他 单元 闲 着 。 对 于 
四 路 并 行 处 理 器 ， 如 果 N=4 和 M=1， 为 什么 并 行 的 总 体 性 能 下 降 ? 当 M=0， 新 的 功 耗 相 比 
题 中 基准 设计 是 多 少 ? 

在 一 个 周期 内 SRAM 单元 的 发 生 单 比特 软 错误 的 泊 松 分 布 参数 为 A=10-“。 假设 只 有 一 个 字 的 

cache， 且 在 程序 执行 的 第 一 个 周期 内 数据 进入 该 cache。 我 们 同时 假设 软 错误 仅 发 生 在 cache， 在 

任何 其 他 处 理 器 的 结构 都 不 发 生 。 

(a) 在 一 个 运行 了 10 亿 次 循环 的 程序 的 执行 过 程 中 ， 假设 cache 字 在 程序 执行 的 10 亿 周 期 都 是 脆 
弱 的 ， 那 么 在 cache 中 具有 单个 位 错误 的 概率 是 多 少 ? 如 果 一 个 周期 为 1ns， 缓 存 的 FIT 率 
(以 及 在 多 年 的 MTTF) 是 多 少 ? 注意 ， 这 里 计算 出 的 FIT 值 称 为 本 征 FIT 率 。 

(b) 现在 考虑 每 100 万 次 循环 之 后 的 情况 ，cache 字 在 处 理 器 中 已 经 被 新 的 数据 所 覆盖 。 在 这 种 情 
况 下 ， 这 个 cache 的 FIT 率 是 多 少 ? 需要 注意 的 是 ， 当 数据 被 刚刚 进入 cache 新 的 值 所 覆盖 ， 
此 时 任何 旧 值 的 软 错误 都 是 不 相关 的 。 

(c) 现在 考虑 cache 是 由 一 位 奇偶 校 验 保护 的 情况 。 计 算 这 个 cache 的 DUE 和 SDC 的 FIT 率 。 

(d) 现在 考虑 cache 是 由 一 个 单 纠 错 双 校 验 码 (SECDED) 保护 的 情况 。 计 算 这 个 SECDED cache 
的 DUE 和 SDC 的 FIT 率 。 

(e) 现在 考虑 一 个 字 有 2 位 软 错误 位 的 概率 为 30% ， 即 一 个 字 出 现 1 位 错 70% ， 同 时 2 位 错 30% ， 
当 cache 采用 奇偶 校 验 位 和 SECDED 校 验 编码 时 ， 比 较 cache 的 DUE、SDC FIT 率 。 

正如 本 章 所 述 ， 电 迁移 (EM) 是 由 无 序 电流 引起 ， 测 量 EM 影响 的 著名 公式 是 Black 公式 : 

人 (Z .25) 

式 中 : 4 是 常数 ; w 是 横 截面 积 ; J 是 电流 密度 ; E， 是 浊 友和 大 是 Boltzmann 常数 ; T 是 温度 ; n 

是 经 验 比 例 因 子 ,假设 n=2。 

(a) 如 果 线 径 加 倍 ， 那 么 厚 线 的 MTTF 受 EM 影响 有 多 少 ? 

(b) 如 果 线 径 加 倍 引发 电路 设计 麻烦 ， 并 因此 导致 温度 提升 2 倍 ， 那 么 MTTF 受 EM 影响 后 变 为 
多 少 ? 
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处 理 咒 微 结构 


3.1 概述 


对 于 任何 体系 结构 来 说 ， 处 理 器 及 其 支持 的 指令 集 都 是 基本 组 成 部 分 ， 因 为 它们 从 根本 上 
决定 了 体系 结构 的 功能 特性 。 从 某 种 意义 上 说 ， 可 以 把 处 理 器 当 作 计 算 机 系统 的 “大 脑 ”， 因 
此 ， 理 解 处 理 器 是 如 何 工作 的 对 于 理解 多 处 理 器 的 工作 原理 至 关 重 要 。 

本 章 首先 介绍 指令 集 ， 包 括 “ 异 常 ” 的 概念 。 异 常 处 理 可 以 被 看 作 是 对 处 理 器 指令 集 的 
软件 扩展 ， 是 完整 的 指令 集 架 构 定 义 的 组 成 部 分 , 也 是 必须 支持 的 ， 它 们 反 过 来 也 会 限制 处 理 
器 体系 结构 的 实现 。 如 果 不 支持 异常 处 理 ， 处 理 器 和 多 处 理 器 可 能 会 变 得 更 高 效 ， 但 是 ， 也 会 
在 很 多 方面 失去 由 软件 对 指令 集 扩 展 所 带 来 的 灵活 性 和 便捷 性 。 在 本 书 中 ， 我 们 使 用 一 种 非常 
类 似 MIPS 的 简单 指令 集 作 为 基本 指令 集 系 统 。 之 所 以 选取 MIPS， 是 因为 它 比 较 简单 ， 基 于 它 
来 解释 处 理 器 结构 的 基本 概念 会 更 容易 理解 。 此 外 ， 我 们 还 会 根据 需要 介绍 一 些 更 加 复杂 的 指 
令 集 ， 比 如 Intel x86 指令 集 。 

由 于 本 书 描述 的 是 并 行 架构 ， 所 以 我 们 不 会 介绍 那些 只 能 同时 执行 一 条 指令 的 简单 架构 。 
因此 ， 本 书 将 从 五 级 流水 线 开始 介绍 ， 它 在 每 个 时 钟 周期 内 最 多 可 以 并 行 处 理 5 条 指令 。 在 五 
级 流水 线 中 ， 指 令 的 执行 顺序 (或 者 叫 指令 调度 顺序 ) 在 编译 阶段 就 已 确定 ， 这 个 顺序 通常 
叫 作 程序 序 、 线 程序 或 者 是 进程 序 ， 并 且 硬 件 不 对 指令 执行 顺序 进行 动态 调整 ， 这 种 结构 称 为 
静态 流水 线 。 五 级 流水 线 包 含 一 些 基 本 的 处 理 机 制 ， 如 流水 线 阻塞 、 数 据 前 递 以 及 刷 流 水 线 
等 * 这 些 处 理 机 制 是 所 有 处 理 器 体系 结构 都 会 使 用 的 基本 硬件 机 制 ， 因 此 必须 深入 理解 。 通 过 
扩展 五 级 流水 线 ， 我 们 可 以 得 到 超 流 水 处 理 器 和 超标 量 处 理 器 。 超 流水 处 理 器 的 主 频 比 五 级 流 
水 线 高 ， 在 五 级 流水 线 中 某 一 级 完成 的 操作 有 可 能 被 细 分 为 多 个 更 小 的 操作 ， 并 在 超 流水 线 中 
采用 多 个 流水 级 来 完成 。 此 外 ， 一 些 更 加 复杂 的 指令 (如 浮 点 运算 指令 ) 操作 可 以 直接 以 流 
水 的 方式 送 入 处 理 器 的 执行 单元 。 与 超 流水 线 这 种 细 化 流水 的 方式 不 同 ,， 静 态 超标 量 处 理 器 的 
扩展 方式 是 在 每 个 周期 内 同时 读 取 或 者 执行 多 条 指令 。 

静态 流水 线 效率 的 提高 主要 依靠 编译 器 优化 。 尽 管 编译 器 对 代码 十 分 熟悉 并 且 可 以 很 容易 
地 识别 出 诸如 循环 这 样 的 特征 ， 但 是 编译 器 无 法 掌握 某 些 需要 硬件 获取 的 动态 信息 ， 比 如 内 存 
地 址 等 。 而 支持 动态 调度 的 乱 序 (Out-of-Order，0o0) 处 理 器 既 可 以 利用 静态 信息 也 可 以 利用 
动态 信息 ， 乱 序 处 理 器 可 以 充分 开发 每 个 线程 中 的 指令 级 并 行 ( Instruction- Level Parallelism， 
ILP) 程度 。 不 过 要 想 充 分 开发 指令 级 并 行 并 不 是 一 件 容 易 的 事情 ， 因 为 在 指令 乱 序 执行 时 ， 
我 们 必须 正确 处 理 数 据 依赖 、 条 件 分 支 结 果 以 及 异常 等 情况 。 因 此 ， 我 们 需要 一 些 相关 的 机 制 
来 确保 内 存 和 寄存 器 操作 可 能 会 带 来 的 数据 依赖 ， 并 且 支 持 指 令 的 推测 执行 。 在 推测 执行 中 ， 
指令 会 在 分 支 条 件 结果 得 出 之 前 就 推测 执行 。 为 了 支持 指令 推测 执行 ， 必 须 预 测 分 支 条 件 ， 且 
需要 为 预 执 行 得 出 的 结果 提供 临时 存储 区 ， 以 保证 指令 执行 的 程序 序 。 当 预测 分 支 失败 或 者 发 
生 蜡 常 时 ， 必 须 有 相应 的 回 滚 机 制 来 取消 推测 执行 结果 ， 并 且 重 新 开始 执行 正确 指令 。 综 上 可 
以 看 出 ， 动 态 流 水 线 比 静态 流水 线 要 复杂 得 多 。 

上 述 结构 的 复杂 性 可 能 会 影响 时 钟 频率 ， 并 且 也 会 为 在 一 个 时 钟 周 期 内 执行 很 多 条 指令 的 
超标 量 动态 流水 线 的 设计 带 来 困难 。 因 此 ， 处 理 器 设计 的 另 一 个 方面 是 充分 利用 编译 器 的 优 
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化 ， 同 时 简化 硬件 来 保证 机 器 的 高 主 频 。 在 超 长 指令 字 (Very Long Instruction Word，VLIW ) 
处 理 器 中 ， 可 以 在 不 过 度 增加 硬件 复杂 度 的 前 提 下 ， 在 每 个 时 钟 周 期 内 处 理 大 量 指令 。 实 际 
上 ， 超 长 指令 字 处 理 器 对 硬件 支持 的 要 求 非常 低 ， 所 有 关于 操作 依赖 以 及 推测 执行 的 问题 都 在 
编译 阶段 被 静态 处 理 。 在 向 量 处 理 机 中 ， 运 算 操 作 被 编译 器 重新 编译 成 向 量 操作 ， 每 条 向 量 指 
令 定义 了 大 量 相似 但 不 相关 的 操作 ， 这 些 操 作 使 用 大 量 的 同类 型 标量 操作 数 。 因 此 ， 向 量 操作 
可 以 在 很 高 的 主 频 下 实现 很 深 的 流水 级 。 
本 章 涉及 的 内 容 如 下 : 
。 3.2 节 主 要 介绍 指令 集 架构 (ISA) 。 
。 3.3 节 主 要 介绍 乱 序 静态 流水 线 的 实现 、 超 流水 以 及 超标 量 静态 流水 机 。 
。 3.4 节 主要 介绍 带 推测 功能 的 动态 乱 序 流水 线 结构 。 这 节 将 会 讲述 怎样 处 理 内 存 和 寄 
存 器 操作 带 来 的 依赖 ， 怎 样 进行 分 支 预测 ， 怎 样 在 条 件 分 支 中 进行 推测 执行 ， 最 后 将 
讲述 怎样 协调 这 些 机 制 来 保证 程序 的 正确 执行 。 
。 3.5~3.6 节 主 要 介绍 超 长 指令 字 机 器 及 其 编译 器 支持 ， 以 及 显 式 并 行 指 令 计算 
(EPIC) 结构 。 
。 3.7 节 主 要 介绍 向 量 机 。 


3.2 指令 集 架 构 

指令 集 架 构 (ISA) 是 计算 机 系统 最 基础 的 接口 。 它 在 软件 设计 者 和 硬件 设计 者 之 间 定 义 
了 一 个 简单 而 又 清晰 的 界限 。 软 件 设计 者 设计 编译 器 以 及 操作 系统 ， 硬 件 设计 者 进行 JSA 的 硬 
件 实现 。 这 两 者 是 完全 不 同 的 群体 ， 因 此 指令 集 架构 必须 以 一 种 双方 都 可 以 理解 的 方式 严格 实 
现 。ISA 将 编译 器 、 汇 编 代码 或 操作 系统 程序 员 所 要 进行 的 工作 从 物理 层 复杂 的 硬件 中 分 离 出 
来 。 反 之 亦 然 ， 硬 件 设计 者 按照 ISA 说 明 实现 ISA 时 也 不 用 关心 应 用 于 ISA 上 的 复杂 软件 。 

图 3-1 给 出 了 现代 计算 机 系统 的 层次 化 示 
意图 ， 每 一 层 都 依赖 于 下 一 层 。 用 高 级 语言 
(如 C++ 或 Fortran) 编写 的 应 用 程序 在 用 户 层 
通过 调用 函数 库 来 实现 一 些 复杂 或 是 常用 的 功 
能 ， 或 者 进入 系统 层 使 用 系统 调用 来 实现 操作 
系统 提供 的 诸如 ZO 操作 和 内 存 管理 等 功能 。 
编译 器 将 代码 编译 到 机 器 可 以 理解 (目标 代 
码 ) 和 操作 系统 可 以 理解 (操作 系统 调用 ) 
的 层次 。 操 作 系统 可 以 通过 软件 扩展 硬件 的 功 i 
能 ， 通 过 软件 实现 复杂 的 功能 ， 并 且 以 一 种 高 
效 、 安 全 、 透 明 的 方式 协调 多 用 户 共享 系统 资源 。 而 在 这 些 复杂 的 软件 层 下 面 就 是 ISA 层 。 

ISA 将 软 硬 件 隔离 开 ，1SA 的 实现 与 其 上 的 所 有 软件 层 都 是 独立 的 。 计 算 机 架构 师 的 目标 、 
是 在 现 有 的 技术 条 件 下 ， 设 计 出 硬件 结构 来 尽 可 能 高 效 地 实现 指令 集 。 由 于 架构 师 是 在 软 硬 件 
中 间 层 进行 设计 ， 所 以 ， 他 必须 对 两 虱 都 很 熟悉 。 架 构 师 在 熟悉 编译 器 与 操作 系统 的 同时 ， 还 
要 了 解 现 有 的 技术 限制 。 因 此 ， 可 以 看 出 ， 理 解 计算 机 体系 结构 对 软件 和 硬件 设计 者 来 说 都 至 
关 重要 。 

通过 将 硬件 层 从 软件 层 分 离 出 来 ，ISA 在 计算 机 工业 过 去 50 年 的 巨大 成 功 中 扮演 着 关键 
性 角色 。 在 20 世纪 50 年 代 至 60 年代 初 ， 每 一 台新 计算 机 都 有 一 套 不 同 的 指令 集 ， 指 令 集 
的 设计 在 当时 已 经 成 为 每 台 计算 机 设计 的 一 部 分 。 这 样 做 的 缺点 是 软件 失去 了 在 机 器 之 间 
的 可 重用 性 ( 那 时 并 没有 编译 器 ， 所 有 的 程序 代码 都 由 汇编 语言 编写 ) 。1946 年 ，IBM 公司 


应 用 程序 


编译 器 /宏和 程序 库 


计算 机 体系 结构 ( 组 成 ) 
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通过 推出 System/360 成 为 大 名 易 易 的 计算 机 巨头 。 从 那 时 起 ，IBM 保证 其 未 来 生产 的 所 有 
计算 机 都 可 以 运行 System/360 上 的 软件 ， 这 些 机 器 都 将 永久 支持 IBM System/360 的 指令 集 。 
这 种 被 称 为 向 后 兼容 (backward compatibility) 的 规定 使 得 所 有 为 System/360 编写 的 代码 都 
可 以 在 任何 一 台 IBM 机 器 上 运行 ， 从 而 省 去 了 软件 重 写 的 代价 。 向 后 兼容 是 指 当前 的 计算 
机 可 以 运行 之 前 任意 一 款 机 器 上 的 二 进 制程 序 代 码 。 这 个 保证 是 为 了 在 未 来 的 机 器 上 支持 
所 有 的 旧 指 令 。IBM 360 指令 集 将 来 可 能 会 有 所 扩展 ( 它 也 确实 这 么 做 了 ), 但 绝 不 会 舍弃 
已 有 指令 或 改变 其 语义 。 

虽然 现在 大 多 数 程序 都 由 高 级 语言 编写 并 被 编译 成 二 进 制 文件 ， 但 这 种 向 后 兼容 的 策略 还 
是 经 受 住 了 时 间 的 考验 。 因 为 二 进 制 文件 的 源 代码 可 能 丢失 ， 更 重要 的 是 ,通常 软件 供应 商 只 
提供 二 进 制 文件 ， 因 此 , 确保 这 些 二 进 制 文件 可 以 在 未 来 的 任何 机 器 上 都 能 运行 就 显得 非常 
重要 。 

总 的 来 说 ， 指 令 负 责 将 命令 从 软件 转换 到 硬件 ， 它 们 是 程序 执行 的 基本 步骤 。 指 令 由 操作 
码 (opcode) 和 操作 数组 成 ， 包 括 输入 操作 数 和 输出 操作 数 。 操 作 数 可 以 存 于 内 存 中 或 CPU 的 
寄存 器 中 ， 可 以 是 显 式 的 也 可 以 是 隐 式 的 。 当 操作 数 隐 含 在 操作 码 中 时 称 为 隐 式 的 ， 显 式 的 则 
需要 在 操作 数 域 显 式 指 明 。 


3.2.1 指令 类 型 和 操作 码 


指令 有 固定 的 格式 ， 因 此 很 容易 通过 硬件 译 码 ， 也 有 利于 编译 杀生 威 。 每 一 条 指令 都 包含 
一 个 操作 码 (命令 ) 以 及 数 个 输入 /输出 操作 数 (数据 ) 。 

指令 的 操作 码 指明 了 这 条 指令 需要 硬件 做 什么 操作 ， 本 书 中 将 会 涉及 4 类 指令 : 

。 整 型 算术 /逻辑 指令 。 

。 浮 点 算术 指令 。 

。 访 存 指令 。 

。 控制 指令 。 

算术 /逻辑 指令 

整 型 算术 指令 对 无 符号 整数 或 二 进 制 补 码 进行 算术 操作 。n 位 无 符号 整 型 可 以 表示 
0 ~2” 之 间 的 所 有 正 数 和 0， 无 符号 整 型 最 常用 于 地 址 表示 。 二 进 制 补 码 可 以 表示 -2””~ 
2 -1 之 间 的 正 数 和 负数 。 对 二 进 制 补 码 操 作 数 的 典型 操作 有 加 (ADD)、 减 (SUB) 、 乘 
(MULT) 以 及 对 应 的 无 符号 数 操作 〈 如 ADDU、SUBU、MULTU ) 。 无 符号 数 操作 不 会 引起 蜡 
常 ， 而 有 符号 数 操作 在 出 现 上 溢 或 下 溢 时 会 出 现 异 常 。 同 一 个 算术 逻辑 单元 (Arithmetic Logic 
Unit，ALU) 可 以 执行 有 符号 数 操作 和 无 符号 数 操作 两 种 类 型 的 指令 。 逻 辑 指 令 会 对 每 个 输入 
操作 数 进行 按 位 操作 ， 典 型 的 逻辑 指令 有 或 (OR)、 与 (AND)、 非 (NOR) 以 及 与 非 
(NAND) 等 ,逻辑 指令 也 不 会 引起 异常 。 

通常 来 讲 ， 大 多 数 整 型 算术 /逻辑 指令 可 以 在 一 个 时 钟 周期 内 由 一 个 ALU 完成 。 对 于 乘除 
法 指令 来 说 ， 由 于 其 复杂 性 ， 需 要 多 个 时 钟 周期 才能 完成 。 

浮 点 指令 

浮 点 指令 也 是 算术 指令 ,但 其 操作 数 由 科学 计数 法 表示 (包括 符号 sign， 阶 码 exponent 和 
尾数 mantissa) 。 这 样 做 的 目的 是 扩大 可 表示 数 的 范围 并 且 能 够 避免 算术 上 洪 或 下 游 。 浮 点 指令 
被 大 量 地 用 于 科学 和 工程 应 用 中 , 并 且 必 须 在 桌面 (工作 站 ) 环境 中 支持 。 浮 点 数 操作 
(FADD、FMUL 和 FDIV) 要 比 整 型 操作 复杂 得 多 ,我 们 可 以 通过 程序 或 宏 来 实现 , 但 如 果 通 
过 硬件 实现 的 话 ， 执 行 速度 上 还 是 要 快 得 多 。 
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访 存 指令 

访 存 指令 包括 load (LB、LH、LW 和 LD, 分 别 代 表 加 载 字 节 、 加 载 半 字 、 加 载 字 、 加 载 
双 字 ) 和 store (SB、SH、SW 和 SD, 分 别 代表 存储 字 节 、 存 储 半 字 、 存 储 字 、 存 储 双 字 ) 两 
类 。 它 们 的 作用 是 从 内 存 中 取 数 或 向 内 存 写 数 。 指 令 包 含 一 个 内 存 地 址 并 指定 一 个 处 理 器 内 部 
的 位 置 ， 操 作 码 显 式 地 指明 了 内 存 操 作 数 的 大 小 。 其 他 访 存 指令 包括 同步 指令 ， 例 如 test- and- 
set 指令 或 者 swap 指令 ， 同 时 也 包括 load 和 store 操作 。 我 们 将 在 第 7 章 对 这 些 类 型 的 指令 进行 
讲解 。 

分 支 和 跳 转 

指令 按照 程序 计数 器 顺序 执行 。 每 个 时 钟 周期 程序 计数 器 ( Program Counter，PC) 都 会 更 
新 以 指向 顺序 执行 的 下 一 条 指令 。 控 制 指 令 〈 分 支 和 跳 转 ) 打破 了 指令 执行 的 顺序 性 。 通 常 
分 支 指令 是 有 条 件 的 ， 当 且 仅 当 某 一 条 件 满足 时 才 会 进行 分 支 。 因 此 ， 在 执行 分 支 指令 时 ， 必 
须要 计算 出 条 件 和 目标 地 址 。 分 支 指令 的 目标 地 址 包含 在 指令 中 ， 是 一 个 相对 于 分 支 指令 PC 
值 的 二 进 制 补 码 偏 移 。 

不 同 ISA 的 分 支 指令 之 间 的 差别 主要 源 于 对 分 支 条 件 的 设置 。 在 某 些 ISA 中 ， 条 件 码 主要 
由 指令 根据 运算 结果 设置 。 举 个 例子 ，Motorola 68000 有 5 个 条 件 码 : Z ( 零 ) 、C (进位 ) 、V 
(溢出 )、X (扩展 ) 和 N ( 负 值 ) ， 有 一 个 状态 寄存 器 保存 这 些 条 件 位 并 且 作 为 程序 状态 字 的 
一 部 分 。 条 件 码 (condition code，CC) 的 主要 问题 包括 : (1) 不 管 是 不 是 真 的 需要 ， 所 有 指 
令 都 会 对 条 件 码 进行 设置 ; (2) 对 条 件 码 的 设置 取决 于 指令 种 类 ; (3) 分 支 指令 和 所 有 分 支 
前 的 指令 之 间 会 引入 额外 的 相关 ， 这 将 限制 处 理 器 对 并 行 性 的 开发 。 

一 种 可 以 用 来 替代 条 件 码 的 方法 是 设置 条 件 标识 ， 只 在 需要 时 才 检 测 它 。 这 种 方法 使 用 指 
令 对 一 些 操 作 数 进行 测试 ， 并 将 结果 存 人 某 一 寄存 器 中 。 例 如 

SET Ri R2, RS 

BEZ R1,1oop 3 

在 这 个 代码 段 中 ，SLT 指令 在 R2 < R3 时 对 R1 置 1; 否则 将 R1 置 0。BEZ 指令 检测 Rl 的 
值 (0 或 1)， 并 且 当 值 为 0 时 进行 跳 转 。 另 一 种 方法 是 在 分 支 指令 中 既 计 算 条 件 叉 对 其 测试 ， 
如 果 成 功 则 跳 转 ， 例 如 : 


BNE R1,R2,1loop 


BNE 指令 比较 RI 和 R2 的 值 ， 如 果 不 相 等 则 跳 转 到 loop 处 。 

程序 中 经 常会 出 现 跳 转 指令 〈《 有 时 也 称 为 无 条 件 分 支 ) ， 跳 转 的 地 址 通过 指令 本 身 给 出 
(直接 跳 转 ) 或 由 某 个 寄存 器 给 出 (间接 跳 转 ) 。 与 分 支 不 同 的 是 ， 跳 转 指令 的 目标 地 址 不 需 
要 计算 。 

通过 跳 转 指令 来 实现 子 程序 或 程序 调用 并 不 高 效 ， 因 为 必须 保存 返回 地 址 ( 函数 调用 后 的 
下 一 条 指令 地 址 )。 在 MIPS ISA 中 ，JAL (jump-and-link) 指令 可 以 首先 将 返回 PC 值 保存 在 一 
个 寄存 器 中 ， 然 后 再 跳 转 到 子 程序 。 在 调用 前 或 调用 后 ， 原 有 上 下 文 的 寄存 器 值 必须 通过 软件 
保存 在 内 存 的 控制 栈 中 。 


JAL R28,subroutine 


这 条 指令 将 下 一 条 指令 的 PC 值 保存 到 R28 寄存 器 中 ， 然 后 跳 转 至 Subroutine 子 程序 。 

此 外 , 一 些 老 的 ISA 有 复杂 的 子 程序 调用 指令 ， 可 以 完成 所 有 上 下 文保 存 和 现场 恢复 。 然 
而 ， 这 类 复杂 指令 不 够 灵活 ， 并 且 子 程序 调用 相对 来 说 也 不 是 很 频繁 ， 根 据 Amdahl 定律 ,我 
们 没有 必要 实现 这 种 复杂 性 。 
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3. 2.2 指令 混合 

熟悉 各 种 指令 /操作 在 一 个 程序 中 所 占 的 比例 是 非常 重要 的 ， 这 种 指令 分 布 情况 称 为 指令 
混合 (instruction mix) 。 指 令 混 合 分 为 两 种 : 静态 的 或 动态 的 。 静 态 指 令 混 合 是 指 程序 代码 中 
的 各 指令 类 型 比例 ; 动态 指令 混合 是 指 程序 执行 时 各 种 指令 类 型 的 比例 。 在 动态 指令 混合 中 ， 
某 个 固定 PC 指向 的 指令 可 能 会 被 执行 多 次 ( 如果 它 是 循环 或 子 程 序 的 一 部 分 ) ， 而 在 静态 指 
令 混合 中 只 会 被 记录 一 次 。 在 指导 CPU 设计 方面 ,动态 指令 混合 比 静态 指令 混合 更 有 用 。CPU 
的 设计 应 该 关注 动态 指令 混合 中 经 常 出 现 的 指令 ， 比 如 那些 在 一 个 实际 程序 执行 期 间 耗 时 最 多 
的 指令 。 

表 3-1 给 出 了 一 个 典型 的 动态 指令 混合 的 组 成 。load 指令 的 CPI 很 高 是 因为 “内 存 墙 ”的 
问题 ， 条 件 分 支 指令 的 CPI 也 很 高 是 因为 它们 打破 了 顺序 取 指 的 可 预测 性 ， 在 分 支 条 件 计 算出 
来 之 前 ， 无 法 确定 是 不 是 应 该 跳 过 分 支 执行 后 续 指 令 。 这 一 问题 对 于 一 次 只 能 执行 一 条 指令 的 
机 器 没有 什么 影响 ， 然 而 ， 在 更 加 复杂 、 流 水 化 的 机 器 中 ， 条 件 分 支 指令 会 严重 制约 对 代码 并 
行 性 的 开发 。 毫 无 疑问 ， 处理 器 设计 必须 重点 关注 对 load 指令 和 条 件 分 支 指令 的 优化 。 此 外 ， 
取 指 也 是 很 重要 的 一 个 问题 ， 因 为 所 有 的 指令 都 要 被 取 到 处 理 器 中 ， 并 且 处 理 器 没有 指令 时 将 
无 法 执行 。 


表 3-1 整 型 Benchmarks 中 的 动态 指令 混合 粗略 统计 








操作 码 分 类 cP 

od 指令 

so 亲人 人 

ALU 操作 指令 人 低 

条 件 分 支 指令 20 高 

跳 转 指令 2 低 

子 程序 调用 指令 CE 低 
3.2.3 指令 操作 数 

指令 操作 数 保存 在 CPU 或 内 存 中 。 

CPU 内 部 操作 数 


CPU 内 部 的 操作 数 可 能 保存 在 累加 器 、 栈 、 寄 存 器 或 者 是 指令 内 部 。 
累加 器 。 累 加 器 是 CPU 内 部 隐 含 的 一 个 操作 数 。 累 加 寄存 器 作为 操作 数 由 如 下 指令 的 操 
作 码 隐 式 给 出 : 


ADDA <mem_address> 
MOVA <mem_address> 


在 ADDA 指令 里 ， 存 储 在 内 存 地 址 为 < mem_address'> 的 操作 数 会 与 累加 器 A 内 的 数据 相 
加 ， 并 且 运 算 结果 也 保存 在 累加 器 中 。 在 MOVA 指令 里 ， 会 将 累加 器 A 内 的 内 容 存 储 到 内 存 
中 。 CPU 内 部 可 能 有 多 个 累加 器 (A, B ， ee) o 

堆栈 。 操 作 数 存在 于 硬件 构成 的 栈 中 。 硬 件 堆 栈 由 一 组 硬件 寄存 器 组 成 ， 栈 顶 元 素 被 默认 
为 操作 数 ， 例 如 : 

PUSH <mem_address> 

ADD 

POP <memaddress> 


A 
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PUSH 指令 将 内 存 中 地 址 为 mem_address 的 数据 取出 ， 并 放置 在 CPU 内 部 堆栈 的 栈 顶 位 置 。 
ADD 指令 将 栈 顶 的 前 两 个 元 素 取出 相 加 ， 并 将 结果 存 人 栈 顶 。POP 指令 将 栈 顶 元 素 弹 出 ， 放 
在 内 存 地 址 为 mem_address 的 内 存单 元 中 。 

寄存 器 。CPU 内 部 有 一 组 可 编 址 的 寄存 器 ， 每 个 都 有 一 个 寄存 器 号 。 可 以 指定 某 些 寄存 器 
存储 数据 ， 另 一 些 寄存 器 存储 地 址 ， 例 如 : 


LW R1,<mem address> 
ADD R2,<mem address> 
ADD R11,R2,R4 

SW R10,<mem_address> 


这 些 指令 中 的 RI、R2、R4 和 R10 都 是 CPU 内 部 的 可 编 址 寄存 器 。 寄 存 器 相 比 于 累加 器 
或 堆栈 有 自身 的 优势 ， 它 们 的 应 用 更 加 灵活 ， 多 个 寄存 器 的 值 都 可 以 重复 利用 。 编 译 器 对 寄存 
器 的 使 用 进行 管理 ， 编 译 器 尽 可 能 重用 存储 在 寄存 器 中 的 数据 。 当 编译 器 需要 寄存 器 分 配 一 个 
新 值 时 ， 编 译 器 必须 先 将 某 一 个 寄存 器 的 值 写 回 到 内 存 ， 即 发 射 一 条 store 指令 将 数 存 到 内 存 
中 ， 从 而 释放 该 寄存 器 ， 这 一 过 程 叫 作 寄存 器 溢出 (register spil) 。 之 后 可 能 又 需要 这 个 数 ， 
此 时 需要 重新 分 配 一 个 寄存 器 ， 并 通过 load 指令 将 数 装 入 ， 这 一 过 程 叫 作 寄 存 器 装 入 (register 
所) 。 很 多 现代 ISA 都 只 使 用 寄存 器 而 不 使 用 累加 器 或 堆栈 。 然 而 ， 一 般 来 说 ， 给 定 的 一 个 
ISA 可 能 使 用 累加 器 、 堆 栈 和 寄存 器 组 中 的 一 种 或 多 种 。 

立即 数 。 立 即 数 是 包含 在 指令 内 部 的 常数 ， 将 经 常 使 用 的 较 小 的 数 作为 常数 可 以 获得 很 高 
的 效率 ， 例 如 : 


RDDI R1,R2,#5 


在 这 条 指令 中 ， 特 殊 操 作 码 (ADDI) 表示 加 法 的 第 三 个 操作 数 是 一 个 立即 数 ， 且 包含 在 
指令 本 身 的 立即 数 域 。 在 很 多 指令 集中 ， 寄 存 器 RO 的 值 恒 为 0， 可 以 作为 操作 中 0 的 来 源 。 

访 存 操作 数 

访 存 操作 数 由 其 有 效 地 址 (effective address) 给 出 ， 指 令 内 的 访 存 操作 数 地 址 域 会 给 出 怎 
样 计算 每 个 访 存 操作 数 的 有 效 地 址 。 

通常 ， 机 器 是 按 字 节 编 址 的 ， 也 就 是 说 内 存 的 每 个 字 节 都 有 其 自己 的 地 址 ， 同 样 每 个 内 存 
地 址 都 会 指向 内 存 的 某 个 字 节 。 例如， 一 个 32 位 的 地 址 可 以 寻 址 4GB 的 内 存 空 间 。 在 某 些 
ISA 中 (尤其 是 现代 的 ISA) ， 操 作 数 必须 是 对 齐 的 〈aligned) 。 也 就 是 说 ， 一 个 操作 数 的 地 址 
必须 是 它 大 小 的 整数 倍 。 因 此 ， 半 字 (2 个 字 节 ) 的 地 址 必须 是 偶数 ， 字 -4 个 字 节 ) 的 地 址 
必须 是 4 的 倍数 ， 而 双 字 〈8 个 字 节 ) 的 地 址 必须 是 8 的 倍数 。 这 样 限 制 的 目的 是 简化 与 数据 
cache 的 接口 ， 因 为 cache 块 的 大 小 通常 是 2 的 答 ， 整 个 操作 数 必须 被 包含 在 同一 个 cache 块 以 
及 同一 个 内 存 页 中 。 缺 页 或 cache 失效 是 不 允许 在 访问 操作 数 或 指令 过 程 中 发 生 的 。 编 译 器 或 
汇编 代码 要 保证 操作 数 对 齐 。 若 操作 数 没有 对 齐 ， 硬 件 则 无 法 处 理 本 次 访问 ， 此 时 会 触发 一 个 
故障 (异常 )。 ' 

关于 字 节 可 编 址 性 的 男 一 个 敏感 问题 是 字 节 的 高 位 是 随 着 地 址 增加 还 是 减 小 。 也 就 是 说 ， 
内 存 中 的 最 高 有 效 字 节 (Most Significant Byte，MSB) 应 该 放 在 地 址 最 低 的 地 方 还 是 最 高 的 地 
方 ， 这 两 种 方式 分 别称 为 大 端 (big endian) 和 小 端 ( little endian )。 为 了 说 明 这 个 问题 ， 
图 3-2 给 出 了 内 存 中 的 第 一 个 字 (地 址 0 单元) 的 示意 图 ,一 个 字 包 含 0，1 ,2,3 四 个 字 节 。 
在 大 端 方式 中 ，MSB 是 字 节 0， 最 低 有 效 字 节 (Least Significant Byte，LSB) 是 字 节 3 在 小 端 
方式 中 ，MSB 是 字 节 3，LSB 是 字 节 0。 

这 种 规定 看 上 去 无 太 大 意义 ， 然 而 ， 这 种 约定 甚至 对 程序 源码 级 的 输出 都 会 产生 影响 。 如 
果 代 码 获取 按 字 打 包 的 字 节 数据 ， 比 如 操作 ASCII 编码 文本 的 程序 ， 程 序 中 某 些 处 理 打包 成 字 
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的 字 节 数据 的 代码 可 能 在 采用 不 同 大 、 小 端 方 式 的 体系 结构 之 间 就 不 能 直接 移植 了 。 例 如 ， 加 
载 0 号 字 节 的 结果 可 能 是 获取 到 0 号 字 的 MSB (大 端 ) 或 0 号 字 的 LSB (小 端 )。 


小 端 LSB MSB 





大 端 


三 


SB LSB 


图 3-2 大 端 与 小 端 存储 格式 


Sun 公司 的 SPARC 微 系统 和 IBM 公司 System 370 的 ISA 采用 大 端 方式 ， 而 Intel x86 采用 小 
端 方式 。 在 某 些 ISA (例如 MIPS) 中 ,采取 哪 种 方式 可 以 在 启动 系统 时 通过 某 一 模式 位 设 定 。 

寻 址 方式 

指令 中 的 操作 数 地 址 域 控 制 硬件 通过 地 址 寻 址 模式 加 所 需 的 一 些 数据 域 值 形成 有 效 地 址 ， 
然后 根据 有 效 地 址 去 相应 的 地 址 空间 取 操 作 数 。 这 些 数 据 域 保存 了 用 来 计算 地 址 的 所 需 的 数据 
(如 寄存 器 号 和 偏 移 地 址 )。 有 些 情况 下 ， 寻 址 方式 被 隐 式 地 编码 在 操作 码 中 。 表 3-2 给 出 了 一 
些 寻 址 方式 。 有 些 指令 集 支 持 多 种 寻 址 方式 。 在 只 基于 寄存 器 的 ISA 中 有 三 种 寻 址 方式 : 指定 
CPU 操作 数 ; 指定 内 存 操作 数 的 地 址 ; 指定 分 支 目 标 指令 地 址 。 


表 3-2 基于 寄存 器 的 机 器 寻 址 示例 ，( Ri) 表示 Ri 中 的 值 ，MEM [x] 表示 内 存 地 址 x 中 的 值 








寻 址 模式 含义 
寄存 器 直接 寻 址 ADD R1; R2, R3 RI1<=(R2) + (R3) 
立即 数 寻 址 RI1<=(R2)+15 
偏 移 寻 址 R1 <=MEM [(R2) +20] 
寄存 器 间接 寻 址 R1 <= MEM [(R2)] 
内 存 直 接 寻 址 R1 <= MEM [2000] 
内 存 间接 寻 址 RI <=MEM [MEM [(R2)]] 
取 值 后 自 加 R1 <=MEM [(R2)] then R2 < = (R2) +size 
取 值 前 自 减 R2 <=(R2) -size then RI < = MEM [ (R2)] 
PC 相对 寻 址 PC <=(PC) +4+166 


一 些 内 存 寻 址 方式 是 其 他 寻 址 方式 的 特例 。 例 如 ,寄存器 间接 寻 址 和 内 存 直 接 寻 址 都 是 偏 
移 寻 址 的 特殊 情况 。 其 他 寻 址 方式 可 以 通过 一 些 简 单 寻 址 方式 的 组 合 而 得 到 。 例 如 内 存 间 接 寻 
址 ， 取 值 后 自 加 和 取 值 前 自 减 可 以 通过 两 条 指令 简单 合成 : 
‘ 


LOAD R1,@(R2) ==> LOAD R3,0 (R2) /内 存 间 接 取 值 
LOAD R1,0(R3) 

LOAD R1, (R2)+ ==> LOAD R1,0 (R2) 
ADDI R2,#size / 取 值 后 自 加 


如 果 16 位 的 偏 移 量 或 立即 数 不 够 用 ,32 位 的 地 址 或 值 可 以 先 放 在 寄存 器 中 再 使 用 。 

注意 在 组 合 寻 址 方式 中 ,编译 器 可 能 会 多 使 用 一 个 额外 的 寄存 器 ， 例 如 上 面 内 存 间 接 寻 址 
例子 中 的 RB3。 男 一 方面 ,编译 器 可 能 会 丢失 地 址 寄存 器 的 初始 值 ( 比如 上 上 例 中 重用 R2 而 不 是 
使 用 RB3)， 这 可 能 会 导致 寄存 器 溢出 和 装 入 。 不 过 ,在 实际 程序 中 ， 这 些 特殊 的 寻 址 方式 出 现 
的 频率 很 低 ， 根 据 Amdahl 定律 ， 它 们 对 程序 性 能 的 影响 都 可 以 忽略 。 
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内 存 操作 数 的 个 数 

基于 寄存 器 的 ISA 可 以 根据 操作 数 的 个 数 和 ALU 指令 中 内 存 操作 数 的 个 数 进行 分 类 。 在 
某 些 机 器 中 ，ALU 指令 可 能 会 有 3 个 内 存 操作 数 (2 个 输入 1 个 输出 ) ， 或 1 个 内 存 操作 数 
(输入 ) 和 :1 个 寄存 器 操作 数 (输入 和 输出 ) ， 或 者 没有 内 存 操作 数 。 如 果 一 个 ALU 指令 有 3 
个 内 存 操作 数 ， 那 么 如 下 所 示 的 一 个 高 级 语言 语句 High-Level Language，HLL) : 

C=A+B 
其 中 ，A、B 和 C 都 是 变量 ， 这 类 语句 就 可 以 在 一 条 指令 内 执行 ; 


RDD C,A,B 


其 中 ，A、B 和 C 是 内 存 操作 数 地 址 ， 也 就 是 说 一 条 指令 对 应 于 一 条 程序 语句 。 这 种 指令 有 两 
个 缺点 : 一 是 指令 长 度 太 长 〈 表 明 内 存 操作 数 所 用 的 位 数 远大 于 寄存 器 所 用 的 位 数 ) ; 二 是 大 
量 的 内 存 读 写 ， 因 为 这 些 操作 数 总 是 从 内 存 中 读 取 ， 从 不 会 在 CPU 内 部 暂 存 和 重用 。 

上 述 HLL 语句 通过 一 个 内 存 操作 数 和 一 个 寄存 器 操作 数 可 以 被 编译 成 下 面 的 格式 : 


LOAD R1,A 
ADD R1,B 
STORE C,R1 


显然 ， 这 个 代码 长 度 肯定 会 比 3 个 内 存 操 作 数 的 代码 长 度 长 。 然 而 ， 一 个 主要 的 优点 是 ， 
C 的 值 被 保存 在 Rl1 里 ， 如 果 以 后 需要 的 话 就 不 用 再 从 内 存 中 读 取 了 。 此 外 ， 如 果 A 之 前 就 被 
存储 在 一 个 寄存 器 内 ， 那 么 LOAD 指令 也 不 再 需要 了 。 

基于 寄存 器 寻 址 的 ISA 中 ，ALU 指令 里 不 包含 内 存 操作 数 ， 这 种 ISA 也 称 为 load/store 
ISA。 在 这 种 ISA 中 ， 所 有 的 操作 数 都 在 执行 ALU 操作 之 前 必须 显 式 加 载 到 寄存 器 中 。 上 述 
HHL 语句 在 load/store ISA 中 被 编译 成 如 下 : 

LOAD R1,A 

LOAD R2,B 

ADD R3,R1,R2 

STORE C,R3 

正如 之 前 所 说 ， 这 个 代码 序列 会 比 3 个 内 存 操 作 数 的 指令 更 长 ， 并 且 会 用 掉 更 多 的 寄存 
器 。 但 是 ， 与 上 面 讲 到 的 类 似 ，R1、R2、R3 的 内 容 可 能 在 以 后 被 重用 ， 另 外 ，A、B 可 能 已 
经 存在 某 个 寄存 器 中 了 ， 从 而 可 以 省 掉 两 个 指令 。load/store ISA 的 主要 优点 是 对 硬件 的 简化 ， 
尤其 是 对 指令 译 码 和 流水 指令 的 简化 。 


3.2.4 异常 、 陷 阱 和 中 断 


异常 (exception) 正如 其 字面 意思 ， 是 一 类 非常 少见 的 由 硬件 触发 并 强制 处 理 器 执行 异常 
处 理 的 事件 。 和 分 支 或 跳 转 相 比 ， 异 常 最 主要 的 不 同 就 是 它 是 由 硬件 触发 而 不 是 在 程序 代码 中 
主动 调用 ， 当 然 有 时 候 这 个 差异 并 不 明显 ， 比 如 有 些 异 常 是 由 内 核 陷阱 引起 的 。 由 于 它们 比较 
相似 ， 因 此 在 绝 大 多 数 机 器 中 ， 分支 处 理 和 异常 处 理 共 用 同样 的 硬件 机 制 。 异 常 机 制 是 ISA 规 
范 的 一 部 分 ， 所 有 硬件 实现 都 需要 支持 。 

异常 可 能 是 由 指令 、 外 部 中 断 或 硬件 故障 引起 的 。 由 程序 指令 引起 的 异常 需要 保持 和 指令 
的 同步 。 如 果 程 序 要 在 异常 处 理 后 继续 执行 ， 就 必须 停 在 出 错 的 指令 处 并 重新 执行 该 出 错 指 
令 。 与 之 相反 ， 由 WO 中 断 和 硬件 故障 / 宕 机 引起 的 异常 不 需要 和 程序 指令 保持 同步 ， 它 们 可 
能 在 程序 的 任何 一 条 指令 上 产生 中 断 。 不 过 ， 中 断 还 是 需要 及 时 处 理 ， 以 免 丢 失 。 由 于 中 断 同 
程序 指令 无 需 同步 ， 因 此 总 体 上 更 容易 处 理 。 接 下 来 ,我们 讨论 几 种 异常 的 例子 。 

MO 设备 中 断 。 绝 大 多 数 LO 操作 由 于 延迟 很 长 ， 只 能 由 中 断 驱动 。 通 常 ，CPU 通过 直接 
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内 存 访 问 (Direct Memory Access，DMA) 控制 器 或 VO 处 理 器 等 VO 设备 来 执行 一 次 VO 操 
作 。 然 后 ,在 VO 设备 执行 VO 操作 时 ，CPU 会 继续 执行 当前 的 程序 。 当 VO 操作 完成 时 ，L/ 
0 设备 会 通过 中 断 信号 告诉 CPU。 当 CPU 接收 到 信号 时 ， 它 会 执行 一 段 中 断 处 理 程序 。 因 为 I/ 
0 设备 对 于 CPU 来 说 是 外 部 设备 ， 并 且 同 正在 被 CPU 执行 的 程序 不 相关 ，CPU 可 以 选择 在 任 
意 时 钟 周期 来 处 理 此 中 断 。 

操作 系统 调用 。 当 用 户 想 要 调用 操作 系统 的 某 项 服务 时 ， 它 会 执行 一 条 陷阱 (TRAP) 指 
. 令 。 通常 TRAP 指令 有 一 个 参数 指向 Trap 表 的 人 口 ， 通 过 查找 这 个 表 可 以 得 到 请 求 服务 处 理 程 
序 的 入 口 地 址 。 这 种 异常 处 理 同 跳 转 到 子 程序 的 操作 非常 相似 。 

指令 追踪 和 断 点 。 绝 大 多 数 机 器 提供 对 程序 执行 的 追踪 。 在 追踪 模式 中 ，CPU 在 执行 每 条 
指令 时 都 陷入 TRAP， 以 便 异 常 处 理 程 序 可 以 在 指令 执行 之 前 先 将 CPU 状态 记录 到 trace，trace 
通常 存储 在 磁盘 上 。 有 了 追踪 机 制 ， 可 以 得 到 所 有 有 用 的 信息 ， 从 而 为 编译 器 和 体系 结构 设计 
提供 帮助 。 记 录 的 trace 可 以 用 来 评价 其 他 的 体系 结构 。 此 外 ,与 之 相似 ,硬件 也 通过 异常 外 
理 支 持 用 于 程序 调试 的 断 点 。 

整 型 或 浮 点 异常 。 算 术 指 令 (尤其 是 浮 点 运算 ) 可 能 会 导致 一 系列 的 异常 ， 最 常见 的 是 
下 溢出 异常 和 上 溢出 异常 。 若 磁 到 这 两 种 异常 处 理 ， 可 能 中 止 进程 也 可 能 继续 。 算 术 异 常 也 可 
能 表示 某 些 非法 操作 ， 比 如 除 零 操作 。 

缺 页 。 现 代 系 统一 般 都 支持 虚拟 内 存 。 系 统 的 物理 内 存 只 包含 进程 所 需 的 很 少 一 部 分 指令 / 
数据 页 。 如 果 在 内 存 的 某 一 页 上 没有 找到 要 取 的 指令 或 数据 ，CPU 就 会 转 到 核心 态 来 执行 内 存 
管理 函数 ， 把 缺少 的 页 读 到 内 存 中 。 

非 对 齐 访 存 。 当 数据 没有 根据 其 大 小 在 内 存 中 对 齐 时 ， 就 会 出 现 非 对 齐 访 存 异常 。 

违反 内 存 保护 。 访 存 可 能 越界 或 超越 访问 权限 (例如 ， 对 只 读 页 执行 写 操作 ) 。 这 种 情况 
下 ,程序 必须 在 造成 错误 前 及 时 终止 。 

未 定义 指令 。 当 指令 译 码 器 遇 到 了 未 知 /非法 代码 (操作 码 或 寻 址 模式 ) 时 ， 它 不 知道 如 
何 处 理 ， 此 时 必须 进入 异常 。 这 种 异常 可 以 用 于 扩展 ISA， 例 如 ， 一 个 没有 浮 点 操作 的 指令 集 ， 
可 以 将 非法 操作 码 分 配给 浮 点 指令 并 在 异常 处 理 程 序 中 处 理 。 

硬件 故障 /警报 。 各 种 硬件 组 成 部 分 ， 如 总 线 和 内 存 等 ， 通 常 都 有 错误 检测 /纠正 码 等 机 制 
保护 。 当 某 个 硬件 组 成 部 分 无 法 从 错误 中 恢复 时 ， 就 必须 让 正在 CPU 上 执行 的 进程 陷入 trap。 
在 现代 计算 机 系统 中 ， 整 个 机 器 中 分 布 了 各 种 传感器 ， 当 某 些 条 件 ( 比如 局 部 温度 ) 进入 危 
险 区 域 时 可 能 会 让 CPU 陷入 trap。 

掉 电 。 掉 电 时 ， 由 于 电容 的 作用 ,电压 会 缓慢 下 降 。 因 此 就 有 时 间 在 系统 停止 之 前 尽 可 能 
保存 正在 进行 的 计算 和 环境 ， 以 便 后 续 进 行 恢复 。 

当 某 个 异常 需要 和 指令 i 保持 同步 ， 并 且 进 程 在 异常 处 理 完 之 后 需要 恢复 运行 时 ， 那么 必 
须 保 存 第 i-1 条 指令 结束 后 和 第 i 条 指令 开始 前 的 处 理 器 状态 ， 从 而 使 得 处 理 器 可 以 在 处 理 完 
异常 之 后 恢复 到 第 i 条 指令 执行 。 因 此 所 有 按照 进程 序 在 指令 i 之 前 的 指令 都 必须 执行 完 ， 而 
包括 指令 i 在 内 的 所 有 后 续 指 令 都 不 能 执行 。 如 果 每 次 只 执行 一 条 指令 ， 那 么 进程 序 就 是 指令 
执行 的 动态 顺序 。 这 种 异常 叫 作 精 确 异 常 。 例 如 ， 缺 页 或 算术 滋 出 等 异常 必须 是 精确 的 ， 而 硬 
件 错误 或 访 存 冲突 等 其 他 异常 并 不 需要 精确 处 理 ， 因 为 在 异常 处 理 结束 后 进程 会 被 终止 。 

精确 异常 对 硬件 或 编译 器 可 以 做 的 优化 产生 了 限制 。 只 有 程序 员 设 置 的 异常 才 可 能 被 触 
发 。 尽 管 异常 十 分 少 ， 但 是 可 能 由 任意 指令 产生 ， 并 且 在 指令 到 达 执 行 阶段 之 前 是 无 法 预测 
的 ， 因 为 异常 是 在 执行 阶段 被 检测 到 的 。 由 于 异常 很 少 ， 没 有 必要 加 速 其 处 理 过 程 。 然 而 ， 编 
译 器 和 体系 结构 必须 有 内 在 的 机 制 可 以 检测 精确 异常 并 从 中 恢复 。 
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3. 2.5 存储 一 致 性 模型 


存储 一 致 性 模型 是 ISA 至 关 重 要 的 一 个 组 成 部 分 ， 它 定义 了 多 核 处 理 器 中 多 进程 或 多 线程 
访 存 时 的 合法 交错 顺序 ， 我 们 将 在 第 7 章 详细 介绍 这 一 问题 。 


3. 2.6 本 书 的 核心 ISA 


本 书 中 绝 大 多 数 例子 和 习题 使 用 的 核心 ISA 是 MIPS ISA 的 一 部 分 ， 为 了 方便 概念 解释 ， 
指令 集 被 精简 到 最 小 状态 ， 我 们 会 根据 需要 介绍 更 多 的 指令 。 

指令 和 操作 数 类 型 \ 

本 书 提 到 的 ISA 都 是 load/store 类 型 ， 所 有 ALU 指令 的 操作 数 取 自 寄存 器 并 且 含有 3 个 操 
作 数 。 load 和 store 指令 将 数据 从 内 存 取 到 寄存 器 或 从 寄存 器 存储 到 内 存 中 ， 所 有 的 指令 被 编 
码 成 32 位 (4 字 节 ) 的 字 长 度 对 齐 存 到 内 存 中 。 

整 型 数据 类 型 有 字 节 、 半 字 (2 字 节 )、 字 (4 字 节 ) 和 双 字 (8 字 节 ) 这 几 类 。 浮 点 数 
据 类 型 有 单 精度 (4 字 节 ) 和 双 精 度 (8 字 节 ) 两 类 。 所 有 的 操作 数 都 在 内 存 中 对 齐 ， 并 且 其 
大 小 端 方式 可 以 配置 。 有 两 个 分 离 的 寄存 器 组 : 一 组 是 整数 寄存 器 (RO ~ R31); 一 组 是 浮 点 
寄存 器 (F0 ~ F31) 。 双 精度 浮 点 操作 数 〈8 字 节 ) 占据 两 个 连续 的 寄存 器 ， 并 且 寄 存 器 号 是 
偶数 。RO 被 置 为 0， 用 来 提供 常数 0。 

寻 址 方式 有 寄存 器 直接 寻 址 (所 有 ALU 指令 和 浮 点 指令 ) 、 偏 移 寻 址 (内存 操作 数 )、 立 
即 数 寻 址 、PC 相对 寻 址 (分支 指令 )、 绝 对 内 存 寻 址 和 寄存 器 间接 寻 址 ( 跳 转 )。 本 书 中 用 到 
的 核心 ISA 的 各 种 指令 在 表 3-3 中 给 出 。 

表 3-3 本 书 的 核心 ISA 


指令 类 型 操作 玛 全 备注 


R1 < = MEM 针对 字 节 、 半 字 、 字 、 
数据 传输 指令 
在 训 天 及 LsF, m0(R2) | <=MEM 单 精度 / 双 精 度 浮 点 
5 3 [CR2) +20] 取 数 
MEM[ (R2) +20] 单 精度 / 双 精 度 浮 点 
ADD, SUB, 有 符号 /无 符号 加 法 / 
ADDI, SUBI, 有 符号 /无 符号 加 立即 
ADDIU, SUBIU se 数 / 减 立 即 数 
AID0 镶 作 沸 售 *"A0DL, ORE DRI a 由 Ts 


ep 有 符号 或 无 符号 比较 ， 
SLT, SETU SLT R1, R2, R3 a 和 比较 R2 和 R3， 结 果 输 
于 出 到 RI 
3 有 符号 或 无 符号 比较 ， 
SLTI, SETUI SLTILR1，R2, 样 比较 R2 的 值 ， 结 果 输 出 
else R1 <=0 到 Bl 
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( 续 ) 








PC < =label if 
PC < = label if 

PO rie 

及 PC<=(R1) 

| RI1 <=(PC) +4; 保存 返回 地 址 到 R31” 
PC < = target 中 后 ， 跳 转 到 目标 地 址 

ADD.S，SUB. S， ADD.S a 0 

ADD. D, SUB. D, ADD. D 4 

指令 格式 

程序 由 汇编 代码 或 高 级 程序 语言 编写 ， 最 终 被 翻译 成 机 器 所 能 识别 的 目标 代码 或 二 进 制 代 


码 。 指 令 中 各 部 分 到 二 进 制 的 编码 叫 作 指令 格式 。 在 本 书 的 类 MIPS 指令 集中 ， 所 有 指令 都 是 
等 长 的 32 位 ， 主 要 有 三 种 格式 ， 如 图 3-3 所 示 。 












条 件 分 支 ; 等 于 0/ 不 
等 于 0 则 跳 转 
条 件 分 支 ; 等 于 /不 
等 于 
跳 转 目标 在 立即 数 域 
跳 转 目标 在 寄存 器 中 













分 支 / 跳 转 指令 

















浮 点 指令 
双 精 度 浮 点 计算 





31 26 25 21 20 16 15 0 


LW Rt, displacement(Rs) 
SW Rt, displacement(Rs) 
ADDI Rt, Rs, immediate 
BEQ Rt, Rs, offset 


31 26 25 21 20 16 15 11 10 0 
| 
ADD Rd, Rt, Rs | 
31 26 25 0 
opcode target 
J target 
JAL target 
、 图 3-3 指令 格式 


3.2.7 CISC 和 RISC 


现代 指令 系统 (如 MIPS ISA) 称 作 RISC ISA，RISC 是 指 “精简 指令 集 计 算 机 ”。RISC ISA 
背后 的 基本 哲学 是 从 零 开 始 构造 指令 集 ， 最 开始 只 包含 少量 的 基本 指令 ， 之 后 逐步 加 入 那些 对 
性 能 有 帮助 的 指令 。 为 了 简化 译 码 、 提 升 流水 效率 和 缩短 时 钟 周期 ， 指 令 长 度 通 常 是 固定 的 ， 
格式 也 是 规定 好 的 ， 并 且 每 条 指令 的 执行 也 控制 在 一 个 周期 内 。 

与 之 相反 ， 传 统 的 SA (如 IBM 370 系统 或 Intel X86) 则 称 作 CISC ISA， 代 表 “ 复 杂 指 令 
集 计算 机 ”。 这 类 结构 的 一 个 主要 目标 是 在 可 实现 的 基础 上 ， 尽 可 能 多 地 实现 指令 编码 ， 这 就 
导致 了 指令 的 长 度 和 格式 不 固定 。 其 主要 观点 是 ， 对 于 一 段 代码 ， 指 令 流 越 紧 凑 ， 指 令 内 存 和 
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cache 的 利用 率 就 越 高 ， 取 的 指令 字 节 就 越 少 。 男 外 ， 这 类 指令 集 出 现 的 时 候 ， 大 多 数 程序 都 
还 是 由 汇编 代码 编写 的 。 当 时 的 趋势 是 (现在 看 来 可 能 是 错误 的 趋势 )， 应 该 增加 指令 集 功能 
的 复杂 性 ， 以 此 来 减轻 程序 员 的 负担 。 最 终 ，CISC ISA 发 展 越久 就 越 复 杂 ， 时 至 今日 ， 人 们 还 
在 不 断 地 尝试 向 指令 集中 增加 越 来 越 多 的 功能 。 

DEC Vax-11 ISA (现在 已 经 停 用 了 ) 曾 是 一 个 非常 著名 的 复杂 ISA， 并且 在 20 世纪 70 年 
代 到 80 年 代 中 期 非常 成 功 〈 那 时 候 ， 程 序 的 运行 速度 还 在 1MIPS 水 平 !) ， 当 时 工作 站 、 个 人 
电脑 以 及 RISC 的 观点 开始 出 现 。 然 而 ，Intel 的 iAPX432 指令 集 仍 然 在 20 世纪 80 年 代 初 把 复 
杂 指 令 集 推 向 了 赂 峰 。iAPX432 是 一 个 真正 的 超级 CISC， 它 的 指令 集 用 硬件 ( 微 代 码 ) 直接 
实现 了 面向 对 象 的 处 理 ， 指 令 集 有 200 多 个 操作 码 ， 指 令 长 度 从 6 位 到 300 多 位 不 等 ， 而 且 用 
哈 夫 曼 编 码 进 行 编码 。 除 了 普通 的 整 型 和 浮 点 操作 数 ，JSA 可 以 操作 的 基本 数据 类 型 还 包括 数 
组 、 比 特 流 和 “对 象 " 。iAPX432 被 设计 成 用 来 在 硬件 层面 支持 面向 对 象 的 编程 方法 ， 服 务 于 
Ada 编程 语言 。 这 也 同 当 时 广泛 流传 的 ISA 设计 要 针对 特定 语言 这 一 根深 蒂 固 的 观点 相 一 致 ， 
这 种 观点 认为 ， 这 样 做 可 以 把 每 个 指令 设计 得 尽 可 能 接近 高 级 语言 的 语句 。 这 无 疑 导致 了 某 些 
指令 的 极度 复杂 ， 并 且 只 可 能 通过 微 代码 去 实现 。 

复杂 ISA 必须 通过 微 代 码 来 实现 ， 因 为 直接 用 硬件 实现 复杂 指令 实在 是 太 复杂 了 。 微 指令 
是 一 种 十 分 简单 的 指令 ， 当 复杂 指令 被 取出 并 译 码 后 ， 这 条 指令 的 执行 就 由 执行 一 串 从 微 内 存 
(microstore) 中 取出 的 微 指令 所 代替 。 

图 3-4 展示 了 一 个 支持 复杂 指令 的 简单 微 代 码 处 理 器 。 指 令 从 指令 存储 器 中 取出 并 被 译 
码 。 操 作 码 和 操作 数 类 型 决定 了 进入 微 内 存 的 入 口 地 址 ， 该 人 口 地 址 指向 一 个 微 程 序 ， 其 包含 
一 串 完 成 复杂 指令 功能 的 简单 微 指令 (类似 RISC 指令 ) 。 当 执行 结束 后 ， 微 指令 序列 使 得 处 
理 器 从 指令 存储 器 中 读 取 下 一 条 指令 继续 执行 。 











PC<=(PC)+7 /assume7bytes / 
LoadT1,A /of instruction 

Load Tr2, B /Tr's are temporary reg. 
Add Tr1, Tr2 /not visible from ISA 


人 《 IM ) Store Tr1, C 


fa 


指令 寄存 器 ( IM ) 


IR<=IM[PC] 
Jump MS[opcode] 






图 3-4 ”使 用 微 码 实现 的 机 器 


虽然 这 种 个 机 器 非常 简单 ， 但 仍旧 非常 慢 。 过 去 也 有 一 些 对 伪 代 码 进 行 并 行 化 的 尝试 ， 从 
而 可 以 在 一 个 时 钟 周期 内 执行 多 个 微 操作 ,但 这 个 方法 并 不 十 分 有 效 ， 因 为 一 条 指令 内 部 的 操 
作 基 本 是 顺序 的 ， 可 并 行 度 很 低 。 微 指令 存储 空间 中 每 个 微 字 (microword) 中 只 有 一 条 简单 
的 微 操作 (如 图 3-4 所 示 ) 的 情形 叫 作 “ 垂 直 微 代 码 ”， 而 每 个 微 字 有 多 个 微 操作 的 则 叫 作 
“水 平 微 代码 ”。 

反观 RISC 我 们 可 以 看 到 ， 它 消除 了 微 指令 系统 的 指令 翻译 开销 ，RISC 将 源 代码 直接 编译 
到 微 代 码 。 也 就 是 说 ，RISC 指令 将 微 代码 暴露 给 了 编译 器 ， 以 便 对 其 进行 优化 。 微 指令 编码 
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机 器 的 一 个 主要 失败 在 于 ， 无 论 指令 复杂 与 否 ， 都 引入 了 额外 的 翻译 开销 。 

必须 强调 的 是 ，RISC 和 CISC 本 身 不 代表 硬件 的 复杂 与 否 ， 它 们 指 的 是 ISA 的 简单 程度 。 
正如 刚才 看 到 的 ，CISC ISA 可 以 通过 简单 的 微 码 机 来 实现 。 同 样 我 们 会 看 到 ，RISC 机 器 随 着 
时 间 的 推移 也 变 得 越 来 越 复杂 。 当 然 ， 可 以 预料 的 是 ;对 于 一 种 给 定 的 实现 方案 ，CISC ISA 的 
硬件 系统 会 比 RISC ISA 的 复杂 。 然 而 ， 由 于 今天 的 处 理 器 已 经 十 分 复杂 ， 实 现 CISC ISA 的 复 
杂 性 与 实现 RISC ISA 的 复杂 性 相 比 ， 已 经 越 来 越 可 以 忽略 不 计 了 。 基 本 上 ， 复 杂 指 令 可 以 翻 
译 为 由 简单 指令 组 成 的 微 代码 ， 而 微 代码 的 执行 就 可 以 使 用 和 RISC ISA 相同 的 机 制 了 。 

表 3-4 给 出 了 一 些 主要 ISA 的 例子 。 需 注意 的 是 ISA 可 能 会 有 多 种 版 本 ,例如 ，IBM Sys- 
tem 360 后 来 逐步 演化 到 System 370 、System 390 ， 并 一 直到 System z。 同 样 ，SPARC 也 随时 间 的 
变化 出 现 了 多 个 版 本 。 当 然 ，Intel x86 ISA 也 在 不 断 变化 ， 其 指令 数 从 20 世纪 60 年 代 开 始 一 
直 在 急剧 增长 。 然 而 ， 后续 版 本 必须 保证 向 前 兼容 ， 这 样 才能 确保 软件 的 投入 是 值得 的 。 注 意 
有 必要 区 分 ISA 和 对 应 的 实现 (机 器 模型 号 或 名 称 )， 因 为 每 个 ISA 版 本 可 能 都 会 有 多 种 不 同 


的 实现 。 


表 3-4 重要 的 1SA 及 其 实现 例子 


Motorola 68000 Motorola 
Sun SPARC Si Met 

eo 
er 




















CISC-legacy 
CISC-legacy 
CISC-legacy 





































RISC 








MIPS 
1A-64 


RISC 








3.3 静态 调度 流水 线 


过 去 为 了 有 利于 复杂 指令 的 实现 ， 机 器 都 会 支持 微 码 操作 。 对 于 简单 指令 可 以 使 其 执行 过 
程 流水 化 。 流 水 线 在 工业 中 十 分 常见 ， 一 个 物品 可 能 会 由 数 千 人 流水 制作 。 相 对 于 由 大 量 工 人 
同时 制作 一 个 物品 且 每 人 负责 不 同 的 部 分 而 言 ， 更 高 效 的 方法 是 将 多 个 物品 通过 装配 线 流动 。 
这 样 一 来 ， 工 人 或 机 器 在 每 一 步 只 用 完成 某 一 个 特定 的 步骤 。 

要 实现 流水 线 的 机 制 ， 所 有 工作 需要 按照 同样 的 或 者 非常 接近 的 方式 完成 。 指 令 执 行 是 一 
种 非常 适合 流水 化 的 操作 ， 因 为 大 量 指令 是 逐个 执行 的 ， 并 且 绝 大 多 数 指 令 都 要 经 过 取 指 、 译 
码 、 执 行 和 写 结果 这 些 阶 段 。 不 过 ， 为 了 提高 效率 ;应 该 将 不 同 指令 类 型 在 格式 和 执行 上 的 差 
异 最 小 化 。 因 此 RISC ISA 十 分 适合 流水 线 〈 尽 管 借助 于 将 复杂 指令 转换 成 垂直 微 代 码 的 形式 ， 
CISC ISA 也 可 以 转换 成 RISC 指令 序列 ， 以 后 会 详 述 ) 。 

指令 流水 的 一 个 主要 问题 是 指令 执行 不 独立 。 通 常 ， 一 条 指令 的 执行 需要 得 到 前 一 条 指令 
的 执行 结果 再 执行 。 有 时 ， 由 于 分 支 的 原因 ， 指 令 流 水 线 甚 至 都 不 知道 下 一 条 该 被 执行 的 指令 
是 哪 条 。 此 外 ， 指 令 可 能 会 导致 异常 ， 发 生 这 种 情况 时 ， 需 要 执行 其 他 指令 序列 ， 此 时 当前 任 
务 需 要 被 暂停 ， 甚 至 是 完全 放弃 。 

在 本 节 中 ， 我 们 探索 用 于 流水 线 和 RISC 指令 并 行 化 的 体系 结构 技术 ， 使 用 的 指令 集 如 
表 3-3 所 示 。 我 们 将 从 经 典 的 五 级 流水 线 开 始 ， 这 种 简单 结构 包含 了 其 他 复杂 机 器 中 的 基本 硬 
件 机 制 。 


3.3.1 经 典 五 级 流水 线 


经 典 的 RISC 流水 线 包 含 5 个 阶段 : 取 指 (还) 、 译 码 ( 力 )、 执 行 (EX)、 访 存 (ME) 和 
写 回 -(WB)。 由 于 所 有 的 指令 都 是 定 长 的 ， 因 此 下 阶段 的 动作 对 所 有 指令 都 是 相同 的 。 在 人 D 
阶段 ， 对 每 条 指令 进行 译 码 并 且 通 常 要 读 取 两 个 寄存 器 。 如 果 该 指令 是 分 支 指令 ， 则 在 此 阶段 
计算 目标 转移 的 地 址 。EX 阶段 用 来 计算 地 址 或 数据 的 值 。 对 于 分 支 指令 ，EX 阶段 比较 两 个 寄 
存 器 的 值 并 且 在 满足 条 件 后 执行 跳 转 。ME 阶段 对 于 load 和 store 指令 有 效 ， 其 他 指令 在 该 流水 
级 什么 也 不 做 。 最 后 ， 输 出 寄存 器 的 值 在 WB 阶段 按 要 求 进行 更 新 。 需 要 注意 的 是 ， 即 使 指令 
在 某 个 阶段 没有 任何 动作 ， 它 也 仍然 要 流 经 这 个 阶段 从 丙 使 所 有 指令 可 以 按照 处 理 顺序 流 经 流 
水 线 的 每 一 个 阶段 。 

表 3-5 给 出 了 不 同 种 类 指令 流 经 流水 线 的 动作 。 由 于 浮 点 指令 和 整形 乘除 指令 的 执行 阶段 
不 目 一 个 周期 ， 它 们 不 适合 五 级 流水 线 ， 因 此 这 两 类 指令 并 没有 包括 在 表 中 ， 这 些 指 令 必须 通 
过 子 程 序 来 实现 。 


表 3-5 指令 在 流水 线 每 一 级 中 的 活动 
IF 流水 级 WB 流水 级 
取 指 ,， 且 PC+4 


a = 
译 码 ， 读 取 R2 


译 码 ， 读 取 Rl 计算 R1 - R2， 如 
取 指 ， 且 PC+4 


和 R2 的 寄存 器 | 果 结 果 为 0， 则 分 支 
取 指 ， 且 PC +4 














指令 


LW R1, #20( R2) 











SW Rl1, #20( R2) 





ADDI R1, R2, imm. 










BEQ R1, R2, offset 值 ， 计 算 目标 地 | 果 续 
址 : PC + offset 

译 码 ， 跳 转 到 
目标 地 址 





在 五 级 流水 线 中 ， 指 令 在 还 和 ME 两 级 都 会 访问 内 存 。 五 级 流水 线 没有 cache 失效 的 处 理 
机 制 ， 因 此 ， 每 一 次 cache 失效 ，CPU 将 暂停 ， 直 到 cache 失效 处 理 完成 后 重新 开始 。 

支持 独立 load、store 以 及 ALU 指令 的 基本 五 级 流水 线 

图 3-5 给 出 了 基本 的 五 级 流水 线 示意 图 ， 该 流水 线 可 以 执行 相互 独立 的 load 、store 和 ALU 
指令 。 相 互 独立 的 指令 之 间 不 共享 寄存 器 或 内 存 位 置 等 资源 。 数 据 通路 上 的 主要 资源 包括 : 指 
令 存 储 (cache) ,寄存 器 文件 (有 两 个 读 端 日 和 一 个 写 端 口 ) ， 可 以 进行 整 型 算术 和 逻辑 操作 、 
的 ALU， 以 及 数据 存储 〈cache) 。 

两 个 连续 的 流水 级 被 流水 线 和 寄存器 隔 开 ， 本 节 中 ,我 们 根据 其 隔 开 的 两 个 流水 级 来 对 寄存 
器 进行 标记 。 当 指令 从 一 个 流水 级 到 男 一 个 流水 级 时 会 进行 重 编码 ， 重 编码 后 的 指令 会 被 存储 
到 流水 线 寄存 器 中 。 所 有 的 流水 线 寄存 器 在 每 个 时 钟 周期 都 可 以 操作 。 在 每 个 时 钟 周期 内 ， 流 
水 级 执行 如 下 操作 。 

取 指 (IF) 。 在 每 一 个 时 钟 周期 (又 叫 一 拍 ) 中 ， 程 序 计数 器 (PC) 会 在 当前 指令 被 取 到 
指令 寄存 器 中 后 加 4。. 在 该 拍 结 束 时 (这 一 拍 的 后 沿 ) ，(PC) +4 被 存储 到 PC 中 ， 新 指令 保存 
到 IFVID 寄存 器 中 。 
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图 3-5 支持 独立 load、store 和 寄存 器 操作 指令 的 五 级 流水 线 示意 图 


译 码 (ID)。 操 作 码 被 译 码 成 控制 信号 ， 控 制 信号 对 之 后 连续 的 几 个 阶段 (EX，ME， 
WB) 建立 各 种 操作 的 组 合 ， 并且 同 每 一 阶段 的 硬件 组 成 部 分 的 控制 输 大 相 联系 。 在 时 钟 周期 
结束 时 ， 这 些 控制 信号 被 存储 在 ID/EX 寄存 器 的 控制 域 中 。 本 阶段 还 需要 从 寄存 器 文件 中 读 
取 两 个 输入 寄存 器 ， 尽 管 可 能 实际 用 不 到 读 取 的 值 。 除 了 操作 码 之 外 的 指令 流 人 下 一 阶段 
(EX) ，(PC) +4 必须 被 携带 着 在 流水 线 中 流动 ， 因 为 当 出 现 异常 时 需要 用 到 PC 信息 。 

执行 (EX) 。 对 应 于 EX 阶段 的 控制 信号 在 此 阶段 执行 ,并 且 从 控制 域 中 提取 出 来 。 供 
ME 和 WB 阶段 使 用 的 控制 信号 则 继续 传输 保存 到 EX/ME 寄存 器 中 。ALU 的 高 位 输入 从 一 个 
输入 寄存 器 中 取 值 ，ALU 的 低位 输入 则 可 能 连接 到 第 二 个 输入 寄存 器 (对 于 所 有 操作 数 都 是 
寄存 器 操作 数 的 ALU 指令 而 言 ), 或 者 (不 会 显示 ) 连接 到 指令 的 低 16 位 (用 于 load 和 store 
指令 的 地 址 计算 ,或 ALU 指令 的 16 位 立即 数 ) 。 目 的 寄存 器 ( WR) 号 通过 EX/ME 寄存 器 中 
的 WR 域 被 传输 到 下 一 阶段 (ME) 。 对 于 load 和 store 指令 ，ALU 用 来 计算 地 址 值 。 对 于 store 
指令 ， 要 存储 的 值 通过 旁 路 绕 过 ALU 传输 到 下 一 阶段 。 

访 存 (ME) 。 对 应 于 访 存 阶段 的 控制 信号 在 此 阶段 被 执行 ， 并 且 从 控制 域 中 提取 出 来 。 
对 应 于 WB 阶段 的 控制 信号 则 继续 传输 到 ME/WB 寄存 器 。 对 于 load 或 store 指令 ，ALU 的 输出 
即 为 地 址 ， 我 们 将 其 放 到 内 存 的 地 址 总 线 上 。 对 于 store， 从 EX 传输 来 的 要 存储 的 值 连接 到 内 
存 输入 数据 总 线 上 。 在 这 个 周期 的 后 沿 会 将 值 写 到 内 存 。 对 于 ALU 指令 ， 该 阶段 什么 也 不 做 ， 
ALU 的 计算 结果 被 直接 送 到 ME/WB 中 。 注 意 输出 寄存 器 号 也 会 被 传输 到 WB 阶段 ,保存 在 
MEXWB 的 WR 域 。 

写 回 (WB) 。 剩 下 的 控制 信号 都 在 本 级 进行 处 理 ， 来 自 内 存 的 值 (对 于 load) 或 者 来 自 ALU 
的 值 (对 于 ALU 指令 ) 将 存储 在 由 WR 域 指明 的 寄存 器 中 。 注 意 这 个 寄存 器 的 值 在 这 一 拍 要 被 修 
改 ， 而 此 时 从 该 寄存 器 读 出 的 值 仍 是 旧 值 ， 这 是 因为 寄存 器 值 的 更 新 在 这 一 拍 的 后 沿 才 会 生效 。 

当 指令 在 流水 级 之 间 流 动 时 ， 它 需要 携带 后 续 流 水 级 需要 的 各 种 信息 ， 比 如 控制 信号 、 数 
据 / 地 址 信息 、 目 的 寄存 器 号 等 。 当 某 些 域 不 再 需要 时 ， 就 可 以 直接 丢弃 。 这 就 是 通常 的 流水 
线 设计 方法 。 在 流水 线 中 ， 指 令 只 携带 它们 需要 的 信息 。 图 3-5 中 的 流水 线 没有 对 分 支 指令 中 





控制 依赖 的 处 理 。 

数据 冲突 

一 般 来 说 ， 数 据 依赖 发 生 在 寄存 器 操作 数 和 内 存 操 作 数 上 。 对 于 一 次 执行 一 条 指令 的 机 器 
来 说 ， 数 据 依赖 不 会 带 来 任何 冲突 (或 错误 ) ， 因 为 在 指令 被 取 值 之 前 的 所 有 之 前 指令 的 结果 
都 已 经 获得 。 然 而 ， 当 多 条 指令 同时 执行 时 (对 于 五 级 流水 最 多 有 5 条 ) ， 数 据 依赖 会 导致 数 
据 冲 突 ， 这 是 必须 解决 的 。 注 意 数据 依赖 只 是 软件 引起 的 问题 ， 而 数据 冲突 则 可 能 由 数据 依赖 
以 及 微 结构 两 方面 原因 造成 。 

下 面 是 三 种 典型 的 数据 依赖 

RAW ( 写 后 读 ) 。 后 续 指 令 需 要 当前 指令 的 结果 ， 如 果 相 关 指 令 不 等 待 最 新 的 操作 数 ， 它 
可 能 会 读 到 一 个 旧 值 (RAW 冲突 ) 。 

WAR ( 读 后 写 )。 后 续 指 令 需 要 向 当前 指令 正在 读 的 操作 数 写 值 ， 如 果 写 操作 发 生 在 读 操 
作 前 ， 当 前 指令 就 会 读 到 未 来 的 一 个 值 (WAR 冲突 ) 。 

WAW ( 写 后 写 )。 后 续 指令 要 写 入 的 地 址 和 当前 指令 写 和 人 地址 相同 。 如 果 后 一 个 写 操作 
在 第 一 个 写 之 前 完成 ,那么 这 个 操作 数 的 最 终 值 会 是 一 个 旧 值 (WAW 冲突 ) 。 

在 五 级 流水 线 中 ， 发 生 在 内 存 操作 数 上 的 数据 依赖 不 会 造成 数据 冲突 ， 因 为 所 有 的 Load 
和 Store 操作 都 在 ME 阶段 执行 ,并且 都 是 按照 进程 序 到 达 ME 阶段 的 。 

寄存 器 之 间 也 不 会 发 生 WAW 或 者 WAR 冲突 。WAW 冲突 不 可 能 ， 是 因为 所 有 的 指令 是 在 
按 进程 序 到 达 WB 段 后 才 更 新 寄存 器 文件 的 。 对 于 WAR 也 是 同 理 ， 指 令 总 是 先 于 进程 序 中 的 
后 续 指 令 到 达 译 码 阶 段 ， 并 完成 寄存 器 读 取 操 作 。 

因此 ， 还 剩 下 寄存 器 间 的 RAW 冲突 。 这 种 冲突 是 真实 存在 的 ， 如 表 3-6 所 示 。 表 中 每 一 
行 表示 一 条 指令 从 一 个 阶段 到 下 一 阶段 的 过 程 ， 按 照 图 3-5 的 流水 线 一 拍 一 拍 执行 。 指 令 也、 
13、I4 和 巧 都 依赖 于 有 工 产 生 的 Rl 的 值 。 以 现在 这 个 设计 来 看 ， 唯 一 没有 冲突 的 是 巧 ， 因 为 
11 将 值 写 到 R1 是 在 C5 的 后 沿 ， 而 五 是 在 C6 到 达 ID 阶段 才 读 取 值 的 。 然 而 ， | D、 
13 和 也 仍然 会 读 到 R1 中 的 旧 值 。 


表 3-6 ALU 指令 中 的 寄存 器 RAW 冲突 











下 执行 过 程 中 出 现 的 关于 Rl 的 冲突 可 以 通过 修改 寄存 器 来 避免 ， 如 果 一 个 寄存 器 在 同一 
周期 既 被 读 又 被 写 ， 那么 被 写 的 值 可 以 直接 送 给 读 指令 ， 这 种 优化 叫 作 寄存 器 前 递 ， 其 实现 方 、 
式 很 简单 ， 只 需 在 寄存 器 文件 的 端口 加 几 个 多 路 复 用 器 就 可 以 了 。 

为 了 解决 乙 和 瑟 关 于 Rl 的 冲突 ，RI1 的 值 在 C3 完成 后 就 被 计算 出 来 了 ,而 也 和 了 瑟 分 别 
在 C4 和 C5 的 开始 需要 这 个 值 。 在 C4 的 开始 ，RI1 的 新 值 刚 被 存储 到 EXZME 中 。 因 此 ，Rl 的 
值 必须 从 EX/ME 前 递 到 EX 中 ALU 的 两 个 输入 端 。 在 C5 的 开始 ，Rl 的 新 值 刚 被 存 到 
MEAWB。 这 个 值 可 以 通过 图 3-5 中 的 REG_data 进行 前 递 。 

现在 我 们 再 看 load 指令 引起 的 依赖 性 ， 如 表 3-7 所 示 ， 新 值 在 C4 结束 时 才 可 用 ，DB 和 起 
相对 于 R1 的 冲突 可 以 借助 于 用 于 解决 普通 ALU 指令 依赖 (寄存 器 -寄存 器 依赖 ) 的 前 递 技 术 
来 解决 。 
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表 3-7 load 指令 引起 的 寄存 器 RAW 冲突 


LW R1, 0(R3) IF 
ADDI R3，R1， 树 














| Da 
ORI R6, R1, #20 一 ID EX 
Tm 地 
然而 ， 我 们 仍然 无 法 及 时 把 Rl 的 值 前 递 给 呈 。 因 为 ,2 在 C4 开始 时 就 需要 值 ， 此 时 正 是 
load 访问 内 存 的 时 候 。 因 此 卫 必须 暂停 一 个 周期 ， 它 对 应 的 EX 阶段 将 在 C5 开始 ，load 得 到 的 值 
可 以 通过 之 前 实现 的 硬件 前 递 机 制 给 它 。 在 本 例 中 ，D 在 译 码 阶段 多 停留 了 一 个 周期 ， 即 在 C4 
周期 , 卫 在 了 D 阶段 暂停 。13 则 在 正 阶段 暂停 ， 没 有 取 新 的 指令 。 此 时 ，HL 则 通过 ME 阶段 。 指 


令 的 具体 调度 过 程 如 表 3-8 所 示 。 可 以 看 到 有 一 个 周期 被 浪费 了 ， 因 为 没有 取 新 的 指令 进来 s 
表 3-8 阻塞 流水 线 来 解决 load 带 来 的 RAW 冲突 
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在 图 3-6 中 ， 我们 为 图 3-5 的 基本 五 级 流水 线 添加 了 前 递 和 停顿 的 硬件 支持 。 增 加 的 部 分 
做 了 重点 标记 ， 虚 线 给 出 了 新 增 的 控制 线 。 
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图 3-6 支持 load、store 和 寄存 器 - 寄存 器 指令 的 五 级 流水 线 结构 示意 图 ， 含 有 避免 RAW 冲突 的 硬件 支持 
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为 了 支持 操作 数 前 递 ， 在 EX 中 ALU 的 每 个 输入 上 都 增加 了 一 个 三 路 复 用 器 (为 了 清晰 起 
见 , 图 3-6 中 只 画 了 前 递 MUX)。 每 个 多 路 复 用 器 从 下 面 几 个 输入 中 进行 选择 : (1) 从 了 D 眉 
获得 的 ID/EX 中 的 寄存 器 值 ; (2) 锁 存 到 EX/ME 的 ALU 输出 ; (3) 来 自 WB 阶段 的 REG_data。 
前 递 单元 (FU) 控制 着 这 两 个 多 路 器 。FU 将 EX/ME 以 及 ME/WB 中 的 WR 域 和 EX 中 指令 的 
输入 寄存 器 号 进行 比较 ， 如 果 匹 配 ， 并 且 前 递 指令 要 往 控制 信号 所 表示 的 寄存 器 中 写 人 值 ， 那 
么 FU 就 会 设置 多 路 器 直接 将 值 前 递 给 ALU 的 输入 。 前 递 逻 辑 非常 简单 ， 其 主要 功能 就 是 将 操 
作 数 的 值 从 流水 线 的 一 个 阶段 传送 到 另 一 个 阶段 。 

当 冲 突 检测 单元 (Hazard Detection Unit，HDU) 发 现 Load 指令 后 紧 跟 着 一 条 相关 指令 的 
话 ， 就 会 暂停 流水 线 。HDU 会 检测 EX 阶段 的 指令 是 否 是 Load 指令 ， 以 及 其 目的 寄存 器 同 人 D 
中 指令 的 输入 寄存 器 是 否 相 同 。 如 果 答 案 是 肯定 的 ，HDU 必须 暂停 下 和 了 流水 级 ， 并 向 EX 
中 插入 一 个 NOOP。 为 了 暂停 正和 卫 ，HDU 和 暂时 将 PC 和 IFVXID 的 时 钟 无 效 掉 。 为 了 向 EX 中 
插入 NOOP (也 被 称 作 流 水 线 气泡 ) ，HDU 还 需要 将 ID/EX 中 的 控制 域 设置 为 0， 以 表明 这 条 
指令 不 会 改变 任何 状态 。 注 意 流水 线 暂 停 甚至 比 前 递 的 逻辑 还 简单 ， 因 为 不 需要 通过 总 线 发 送 
任何 操作 数据 。 

控制 冲突 

到 目前 为 止 ,我们 都 没有 考虑 跳 转 和 分 支 指令 的 影响 。 分 支 指令 尤其 复杂 , -因为 分 支 指令 
的 执行 需要 确定 分 支 条 件 和 目标 地 址 。 分 支 指 令 的 寄存 器 操作 数 的 值 可 能 依赖 于 之 前 的 指令 ， 
由 于 数据 可 以 被 前 递 到 ALU 和 EX 的 输入 ， 因 此 ， 分 支 指令 最 早 可 以 执行 的 时 间 点 是 EX 阶段 
结束 时 。 

分 支 指令 的 目标 地 址 是 在 ID 阶段 计算 出 来 的 。 分 支 默 认 是 不 跳 转 的 ， 直 到 指令 到 达 EX 阶 
段 ， 目 标 地 址 可 以 得 到 并 且 条 件 也 由 ALU 计算 完成 时 才能 确定 分 支 结果 。 以 BEQ 指令 为 例 ， 
两 个 输入 寄存 器 的 值 在 ALU 中 相 减 ，ALU 输出 中 的 Z 位 表明 结果 是 否 为 0， 如 果 Z 被 置 位 ， 则 
分 支 跳 转 。 图 3-7 展示 了 BEQ 涉及 的 硬件 结构 。 





图 3-7” 五 级 流水 中 的 分 支 处 理 (BEQ) 
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在 EX 阶段 要 执行 分 支 时 ， 必 须 进 行 以 下 两 个 操作 。 

。 目标 地 址 必须 在 本 周期 结束 时 锁 存 到 PC。 当 2 的 值 为 1 并且 EX 中 是 分 支 指令 时 ， 多 
路 器 将 选择 目标 分 支 地 址 赋值 给 PC。 

。 IF 和 了 D 阶段 必须 清空 。 当 2 的 值 为 1 并 且 EX 中 是 BEQ 指令 时 ， 会 往 D 的 “control” 
中 发 送 一 个 取消 正和 卫 中 当前 指令 的 信号 。 无 效 掉 人 D 中 指令 的 机 制 同 插入 气泡 一 样 
(将 所 有 控制 信号 置 为 0) 。 对 于 正中 的 指令 ， 将 在 下 /ID 中 插入 一 个 有 效 位 ， 并 且 在 
时 钟 周期 结束 时 进行 复位 。 在 下 一 个 时 钟 周期 中 ， 当 有 效 位 被 复位 时 ， 会 强行 将 中 中 
指令 的 控制 位 全 部 清 零 。 

绝对 地 址 的 跳 转 指令 可 以 在 正 阶段 即将 结束 时 执行 ， 因 为 不 需要 计算 地 址 。 然 而 ， 间 接 
跳 转 必 须 在 译 码 阶段 结束 才能 执行 ， 因 为 必须 先 从 包含 目标 地 址 的 寄存 器 中 取出 跳 转 地 址 。 在 
这 种 情况 下 ， 正 中 已 经 取 到 的 指令 必须 被 刷 掉 5 

结构 冲突 

五 级 流水 线 不 存在 结构 冲突 s 结构 冲突 是 由 对 硬件 资源 的 竞争 产生 的 ， 比 如 ， 两 条 指令 试 
图 在 同一 拍 使 用 同一 资源 。 这 种 冲突 可 以 通过 延迟 某 一 条 指令 的 执行 或 者 增加 硬件 资源 来 
解决 。 

精确 异常 的 处 理 

五 级 流水 的 精确 异常 可 能 会 在 下 〈 缺 页 故障 )、ID (未 定义 指令 )、EX (算术 溢出 ) 或 者 
ME ( 缺 页 故障 】 中 触发 。 精 确 异常 不 可 能 发 生 在 WB 阶段 ， 因 为 WB 阶段 唯一 剩 下 的 操作 就 
是 把 结果 写 到 寄存 器 中 ， 此 时 ， 只 有 硬件 错误 才 会 触发 异常 。 

当 五 级 流水 线 中 发 生 精确 异常 时 ， 硬 件 需 执行 以 下 操作 : 

。 出 错 指令 以 及 按照 进程 序 的 所 有 后 续 指令 都 必须 被 清空 清空 其 所 在 的 流水 级 ); 

。 在 出 错 指令 之 前 (按照 程序 序 ) 的 所 有 指令 必须 执行 完成 ; 

。 开始 执行 异常 处 理 程序 。 

非常 有 吸引 力 的 一 个 解决 方法 是 在 异常 发 生 的 当前 周期 处 理 。 然 而 ， 这 在 实现 起 来 是 非常 
复杂 的 ， 原 因 包括 : (1) 需要 清空 的 流水 级 会 随 着 异常 所 在 的 流水 级 不 同 而 变化 ; (2) 处 理 
异常 时 必须 获取 异常 条 件 和 异常 PC， 并且 应 位 于 不 同 的 流水 级 ; (3) 同一 个 时 钟 周期 内 可 能 
会 出 现 多 个 异常 ; (4) 异常 必须 按 进程 序 来 处 理 ， 而 不 是 按时 间 序 来 处 理 。 

为 了 深入 理解 上 述 最 新 需求 的 重要 性 ,我 们 假设 在 五 级 流水 线 中 的 下 阶段 发 生 了 缺 页 蜡 
常 。 如 果 异 常 在 时 钟 周 期 结束 时 发 生 ， 那 么 缺 页 处 理 将 会 在 下 一 个 周期 开始 。 然 而 ， 在 当前 触 
发 例外 指令 之 前 、 已 经 进入 了 D 或 EX 阶段 且 正 在 执行 的 指令 也 可 能 在 后 续 的 执行 过 程 中 引发 异 
常 。 由 于 这 些 指令 按照 进程 序 是 在 出 现 缺 页 的 指令 之 前 ， 因 此 它们 的 异常 应 当先 被 处 理 。 

解决 上 述 各 种 问题 的 一 个 激进 方法 是 ， 先 标识 出 所 有 异常 ， 并 且 在 指令 到 达 WB 阶段 之 前 
保持 “沉默 ”"。“ 沉 默 ” 是 指 暂时 “和 忽略"。 每 条 指令 穿 过 流水 线 的 时 候 都 携带 着 自己 的 PC 和 
异常 状态 寄存 器 (ESR)。 当 指令 发 生 第 一 次 异常 时 ,将 异常 记录 在 指令 的 ESR 中 ， 并 且 这 条 
指令 被 蔡 换 成 NOOP 操作 。 当 指令 到 达 WB 时 ， 再 开始 处 理 异 常 。 还 有 一 些 技术 上 的 问题 需要 
注意 ， 比 如 当 之 前 的 指令 在 WB 阶段 处 理 异 常 时 ， 位 于 ME 阶段 的 store 指令 应 该 被 无 效 掉 ， 以 
避免 其 产生 不 应 有 的 影响 s 通过 这 样 的 方式 ,异常 在 WB 阶段 按照 程序 序 逐 个 处 理 。 


3. 3.2 指令 乱 序 完成 


在 五 级 流水 中 ， 所 有 的 指令 按照 进程 序 开始 及 结束 执行 ， 因 为 它们 都 按照 进程 序 依 次 通过 
流水 线 的 每 个 阶段 8 如 果 不 同 指令 在 流水 线 中 需要 不 同 数量 的 时 钟 周期 , 那么 指令 就 很 可 能 不 
再 是 按照 进程 序 执行 完成 。 图 3-8 展示 的 流水 线 例子 中 包括 两 条 分 别 执行 整 型 (EX) 和 浮 点 
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(FP) 指令 的 流水 线 ， 其 中 一 条 用 来 处 理 load、store、 整 数 和 分 支 指 令 ， 另 一 条 用 来 执行 浮 点 
运算 指令 。 根 据 指令 的 操作 码 ， 译 码 器 决定 每 个 周期 是 将 指令 送 到 整 型 流水 线 还 是 浮 点 流水 
线 。 处 理 器 有 两 套 分 开 的 寄存 器 组 : 一 组 用 于 浮 点 操作 数 ， 一 组 用 于 整 型 操作 数 。 所 有 指令 会 
流 经 ME 和 WB 这 两 个 阶段 。 浮 点 指令 的 执行 阶段 需要 5 拍 ， 并 且 全 部 流水 化 ， 因 此 浮 点 指令 
完成 的 时 间 可 能 比 在 它们 后 面 进入 流水 线 的 整 型 指令 (ALU、load/store) 都 要 晚 。 所 以 ,这 种 
流水 线 和 五 级 流水 线 的 最 大 不 同 在 于 指令 完成 的 顺序 可 能 是 乱 序 的 。 





图 3-8 乱 序 完成 的 流水 线 


数据 冲突 

寄存 器 操作 数 的 前 递 通路 如 图 3-8 所 示 。 由 load 得 到 的 操作 数 可 以 从 WB 前 递 到 FP1 或 
EX 〈 浮 点 或 整 型 操作 数 ) 。 整 型 和 浮 点 结果 也 可 以 从 输出 前 递 到 整 型 或 浮 点 执行 流水 线 的 输 
人 和 人。 由 于 浮 点 store 的 原因 ， 前 递 实现 逻辑 比较 复杂 ， 因 为 浮 点 store 在 译 码 阶段 同时 需要 整 型 
寄存 器 (地址 ) 和 浮 点 寄存 器 〈 数 据 ) 的 值 。 为 了 支持 将 数据 前 递 给 浮 点 store， 需 要 增加 一 
条 从 FP/ME 寄存 器 到 EX 输入 端的 通路 。 

如 果 发 现 和 之 前 的 且 正 在 执行 的 指令 存在 寄存 器 相关 (数据 冲突 ) 的 话 ，ID 阶段 的 冲突 
检测 单元 (HDU) 必须 暂停 本 流水 级 的 所 有 指令 。 对 于 寄存 器 来 说 ， 有 两 种 可 能 的 数据 冲突 : 
RAW 和 WAW。 因 此 阶段 指令 的 源 寄存 器 和 目的 寄存 器 必须 与 正在 执行 的 指令 的 目的 寄存 
器 进行 对 比 检测 ， 如 果 匹 配 则 要 暂停 ID 中 的 指令 。 指 令 的 “操作 延迟 ”这 一 概念 是 指 ， 该 指 
令 在 程序 序 中 紧 挨 着 的 后 续 指令 必须 在 D 中 等 待 的 时 间 ， 这 个 等 待 是 为 了 避免 其 输入 寄存 器 
操作 数 存 在 RAW 相关 。 在 线性 执行 流水 线 中 ， 如 图 3-8 所 示 的 流水 线 ， 指 令 的 操作 延迟 〈 简 
称 为 延迟 ) 是 它 的 执行 周期 数 减 1。 

由 于 浮 点 指令 的 操作 延迟 较 大 (在 本 例 中 是 4 个 周期 )， 因 此 相 比 五 级 流水 线 来 讲 ， 寄 存 
器 RAW 冲突 会 更 频繁 ， 如 表 3-9 所 示 。 


表 3-9 增加 的 RAW 冲突 停顿 

Hw olmlolols|Islr ll lm 
om ow) [rlmlmlwlwl | | | | 

nm nm | 

om ow) | | Tlr [| rll | oT 


除了 操作 延迟 ， 执 行 流水 线 的 另 一 个 重要 特征 是 启动 间隔 ， 即 发 送 两 条 同类 指令 到 执行 单 
元 之 间 的 最 小 间隔 周期 。 在 我 们 的 简单 机 器 中 ， 启 动 间隔 总 是 1， 因 为 整 型 和 浮 点 单元 为 全 流 
水 执行 ， 每 个 周期 都 可 以 发 送 一 条 指令 。 然 而 ， 如 果 某 个 执行 单元 不 是 流水 化 的 ， 或 者 流水 线 
不 是 线性 的 (复杂 流水 线 含有 反馈 /前 馈 环 ， 某 些 流 水 级 会 在 多 个 不 同 周 期 中 使 用 ) ， 启 动 间 
隔 可 能 会 比 1 大 甚至 是 可 变 的 〈 取 决 于 之 前 发 送 的 指令 )。 表 3-10 给 出 了 我 们 的 简单 流水 机 器 











ME 
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上 的 操作 延迟 和 启动 间隔 。 由 于 所 有 的 访 存 指令 都 按 进程 序 通过 ME 阶段 ， 因 此 不 存在 内 存 的 
数据 冲突 。 


表 3-10 “操作 延迟 和 启动 间隔 


功能 单元 
整 型 ALU 
load 单元 
浮 点 操作 单元 (OP) 


启动 间隔 








1 (如 果 不 支持 流水 的 话 ， 则 是 5) 





结构 冲突 

整 型 和 浮 点 寄存 器 组 是 分 开 的 ， 因 此 即使 每 个 寄存 器 文件 只 有 一 个 写 端 口 ,在 同一 
周期 内 ， 整 数 操作 数 和 浮 点 操作 数 仍 然 可 以 同时 更 新 寄存 器 文件 。 不 过 ， 浮 点 load 或 
store 可 能 会 和 之 前 的 浮 点 运算 指令 同时 到 达 WB 阶段 ， 从 而 导致 对 浮 点 寄存 器 文件 写 端 
口 的 结构 冲突 。 表 3-11 中 , IL 和 瑟 在 同一 时 刻 (C8) 到 达 ME 阶段 ， 但 这 不 是 问题 ， 因 
为 11 并 不 访 存 。 然 而 ， 在 下 一 拍 ,， 两 条 指令 都 执行 写 寄存 器 文件 操作 。 如 果 它 和 之 前 发 
送 的 指令 在 WB 阶段 的 寄存 器 写 端口 发 生 冲 突 的 话 ， 可 以 通过 在 ID 阶段 暂停 一 条 指令 的 
方法 来 避免 。 


表 3-11 寄存 器 堆 写 端口 的 结构 冲突 

LeeToTelefeTaTeTa 
nom Bi | wm | wm [rm | rm | | rm | res | we | ws 
no mn | 








在 ME 阶段 ， 浮 点 指令 使 用 的 总 线 不 会 访 存 ， 它 和 可 能 访 存 的 整 型 总 线 是 相互 独立 的 。 通 
过 避免 浮 点 寄存 器 文件 写 端口 的 冲突 ， 就 可 以 保证 在 WB 阶段 没有 冲突 发 生 。 而 在 WB 阶段 ， 
通过 使 用 独立 的 整 型 和 浮 点 总 线 ， 每 个 周期 内 就 只 有 一 条 指令 可 以 访问 寄存 器 写 端口 ， 从 而 避 
免 了 冲突 。 

控制 冲突 

和 五 级 流水 线 类 似 ， 控 制 相关 的 解决 方案 也 是 在 EX 阶段 预测 条 件 分 支 指令 为 not_taken。 
如 果 分 支 结果 是 taken 的 ， 那 么 EX 阶段 会 刷 掉 还 和 了 阶段 的 指令 ， 并 执行 跳 转 目标 地 址 的 指 
全 

精确 异常 

指令 乱 序 完 成 的 主要 缺点 是 精确 异常 很 难处 理 。 因 为 指令 是 乱 序 通过 WB 阶段 的 ， 因 此 也 
无 法 像 五 级 流水 线 那样 等 到 WB 阶段 再 处 理 。 考 虑 下 面 的 例子 : 

ADD.S F1,F2,F1 

LW R2,0(R1) 

这 两 条 指令 是 完全 独立 的 ， 可 以 被 译 码 单元 连续 发 射 。 由 于 LW 在 执行 单元 只 花 1 个 周期 
而 ADD. S 需要 花 5 个 周期 ， 因 此 ，LW 完成 执行 ， 通 过 WB 阶段 ， 以 及 流出 流水 线 这 几 个 步骤 
都 发 生 在 ADD. S 完成 执行 之 前 (如 表 3-12 所 示 )。 如 果 ADD. 5 触发 一 个 异常 ， 并 且 和 暂时 不 处 
理 直 到 WB 阶段 ， 那 么 R2 的 值 会 被 LW 更 新 并 且 整 型 寄存 器 的 状态 会 在 处 理 异 常 时 被 破坏 。 
从 图 中 可 以 看 到 了 在 C6 写 结果 ， 而 此 时 也 还 没 执行 完成 。 
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表 3-12 精确 异常 的 问题 





ADD. S Fl, F2, Fl 
EW R2; 0(R1) 





在 乱 序 完成 的 机 器 上 实现 精确 异常 太 过 复杂 ， 以 至 于 许多 情况 下 直接 不 提供 支持 ;硬件 只 
是 简单 地 告诉 软件 处 理 程序 在 某 些 PC 附近 发 生 了 一 个 异常 。 当然 ， 如 果 是 这 样 的 话 ， 对 于 现 
在 常见 的 由 虚 存 〈 缺 页 ) 导致 的 异常 ， 以 及 严格 按照 IEEE 浮 点 标准 的 浮 点 指令 导致 的 异常 ， 
是 无 法 支持 的 。 

另 一 种 处 理 精确 异常 的 方法 是 将 它们 看 作 流水 线 冲突 。 指 令 在 四 阶段 暂停 ， 直 到 它 之 前 
所 有 的 指令 都 没有 异常 为 止 才 继续 执行 。 要 实现 这 种 方法 ， 所 有 潜在 的 异常 都 必须 在 指令 执行 
期 间 尽 早 发 现 。 很 明显 这 种 方法 会 降低 流水 线 效率 。 

最 后 一 种 处 理 方式 和 五 级 流水 线 类 似 ， 那 就 是 修改 系统 架构 ， 使 其 在 写 回 阶段 按 程序 序 这 
历 所 有 的 异常 。 图 3-9 所 示 的 流水 线 ， 将 EX 和 FP1 以 及 ME 和 FP2 整合 到 一 起 ， 从 而 使 得 所 
有 指令 按 序 穿 过 所 有 流水 阶段 。 这 种 方法 需要 更 多 的 前 递 旁 路 ， 并 且 只 适用 于 简单 的 流水 线 。 
另外 ，store 指令 只 能 在 其 之 前 的 所 有 指令 都 没有 异常 后 才能 发 射 。 





图 3-9 强制 在 WB 阶段 按 序 完成 


3. 3. 3 超 流水 和 超标 量 CPU 


在 现 有 的 技术 下 ， 五 级 流水 的 某 些 阶段 可 能 会 比 其 他 阶段 有 更 长 的 延 时 。 例 如 ，IF 阶段 访 
问 指令 cache 时 间 可 能 是 译 码 或 写 回 阶段 的 2 倍 。 因 为 ， 在 访问 数据 cache 之 前 必须 通过 TLB 
进行 虚实 地 址 转换 。 当 把 五 级 流水 中 超过 一 个 周期 的 阶段 再 流水 化 时 ， 我 们 称 这 种 CPU 为 超 
流水 (superpipelined) CPU。 超 流水 CPU 的 时 钟 比 五 级 流水 中 原 有 最 长 延迟 流水 级 的 时 钟 要 
快 。 并 且 ， 通 过 将 五 级 流水 的 每 一 级 都 再 流水 化 ， 还 有 可 能 提高 指令 吞吐 率 。 在 执行 时 间 的 计 
算 公 式 中 ， 超 流水 技术 会 导致 时 钟 周 期 变 小 ， 但 是 ，CPI 却 会 增 大 。CPI 增 大 的 主要 原因 是 分 
支 开销 和 操作 延迟 ( 按 周期 数 算 ) 的 增加 。 在 图 3-10 所 示 的 超 流水 CPU 中 ,分支 (在 EXI 被 
执行 ) 的 开销 扩大 到 了 3 ， 寄 存 器 - 寄存 器 指令 的 操作 延迟 是 1， 而 load 指令 操作 延迟 是 3。 


国 几 国 几 加 四 王国 


浮 点 流水 线 ( s ) 


图 3-10 超 流水 CPU 


CPU 也 可 以 是 超标 量 的 ， 这 意味 着 在 每 个 周期 同时 有 多 条 指令 被 取 指 、 译 码 和 发 射 。 这 种 
CPU 在 执行 既 有 整 型 操作 也 有 浮 点 操作 的 负载 任务 时 效率 很 高 。 图 3-11 展示 了 一 个 两 路 超标 
量 流 水 线 。 在 每 个 周期 ， 可 以 取 指 和 译 码 两 条 指令 。 如 果 第 一 条 是 整 型 或 访 存 指 令 ， 第 二 条 是 
浮 点 指令 且 和 第 一 条 相互 独立 ， 并 且 如 果 它 们 同 流水 线 中 其 他 指令 没有 冲突 的 话 ， 那 么 就 可 以 
同时 执行 。 
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图 3-11 两 路 超标 量 CPU 


在 超标 量 静态 流水 线 中 ， 对 精确 异常 的 支持 更 加 复杂 ， 设 计 实现 超过 两 路 的 静态 流水 线 也 
非常 困难 。 实 际 上 ， 整 型 流水 线 也 可 以 被 分 成 整 型 操作 、 访 存 操作 和 分 支 处 理 三 条 流水 线 ， 不 
过 这 种 机 器 从 来 没有 出 现 过 。 

静态 超标 量 CPU 可 以 在 每 个 时 钟 周期 执行 多 条 指令 ， 因 此 CPI 一 般 都 小 于 1。 相 比 于 CPI 
而 言 ， 我 们 更 多 使 用 的 是 IPC (Instruction Per Clock) ， 两 者 的 关系 为 IPC = 1/CPI。 当 然 ， 超 标 
量 CPU 同时 也 可 以 是 超 流水 的 。 


3. 3.4 分 支 预测 


本 节 描 述 的 静态 微 结构 的 问题 之 一 是 对 于 分 支 指令 每 次 都 是 预测 为 不 跳 转 。 分 支 预测 逻辑 
在 微 架构 中 是 硬化 的 ， 和 编译 器 无 关 ， 因 此 ， 对 于 循环 底部 的 条 件 分 支 ， 大 部 分 情况 下 其 实 都 
是 错误 预测 的 ， 每 次 都 导致 两 个 周期 的 开销 。 硬 化 的 分 支 预测 是 最 静态 的 分 支 预测 方案 ， 因 为 
它 完全 不 受 软件 影响 。 

更 灵活 的 硬件 分 支 预测 技术 是 基于 操作 码 和 /或 基于 分 支 指令 的 方向 和 地 址 偏 移 量 大 小 。 
例如 ，BNEZ 指令 可 以 预测 为 不 执行 跳 转 ， 而 BEQ 指令 预测 为 执行 跳 转 。 同 样 ， 向 后 跳 转 的 分 
支 预测 为 跳 转 ， 向 前 跳 转 的 分 支 预测 为 不 跳 转 ， 偏 移 大 的 分 支 预测 为 不 跳 转 。 可 以 根据 目标 应 
用 领域 中 的 典型 基准 测试 程序 的 特征 ， 在 微 结构 设计 时 就 确定 好 分 支 预 测 策略 。 

在 编译 时 编译 器 控制 分 支 预 测 也 是 有 可 能 的 ， 这 种 策略 较为 灵活 且 可 以 利用 代码 分 析 优 
势 ， 编 译 器 可 以 模拟 特定 代码 特定 输入 时 的 执行 ， 然 后 确定 代码 中 每 一 个 静态 分 支 的 最 好 预测 
结果 ， 这 一 预测 结果 可 以 通过 在 分 支 指 令 中 加 入 一 个 额外 位 (用 于 预测 提示 ) 的 方式 来 传达 
给 硬件 。 

图 3-5 ~ 图 3-11 中 所 示 的 结构 中 ， 分 支 预测 效果 非常 有 限 ， 这 主要 是 因为 在 译 码 阶段 就 知 
道 分 支 的 目标 地 址 ， 因 此 即使 预测 正确 也 只 能 节省 一 个 周期 。 此 外 ,， 一旦 预测 失败 ， 则 需要 刷 
掉 大 量 指令 ， 这 也 使 得 该 情况 下 的 分 支 预测 效果 不 大 。 


3. 3.5 静态 指令 调度 


图 3-8 ~ 图 3-11 的 流水 线 中 ， 指 令 完成 译 码 后 ， 假 如 它们 之 间 不 存在 相关 ; 就 开始 以 进程 
序 依次 执行 。 、 

在 静态 指令 调度 方法 中 ,硬件 没有 动态 识别 代码 执行 顺序 的 机 制 。 指 令 是 以 编译 器 的 生成 
顺序 调度 执行 的 。 为 了 尽量 减少 译 码 阶段 由 于 指令 相关 导致 的 阻塞 ， 需 要 依赖 编译 器 来 做 指令 
执行 的 调度 。 这 就 是 为 什么 将 其 称 之 为 静态 调度 流水 线 或 静态 流水 线 。 

编译 器 可 以 在 局 部 (在 基本 块 内 ) 或 者 全 局 〈 在 基本 块 间 ) 范围 调度 代码 。 基本 块 是 静 
态 代码 中 的 一 系列 连续 指令 ， 如 果 基 本 块 内 的 某 条 指令 执行 了 ， 那 么 其 他 指令 也 会 一 起 执行 。 
所 以 基本 块 〈 除 了 在 其 最 底部 的 指令 外 ) 不 能 包含 分 支 跳 转 指令 。 并 且 ， 在 基本 块 内 (除了 
在 其 最 项 部 的 指令 外 ) 不 存在 分 支 跳 转 的 目标 指令 。 不幸 的 是 ， 基 本 块 的 平均 大 小 比较 小 ， 动 
态 指令 混合 表明 指令 中 有 20% ~ 25% 是 分 支 指令 。 所 以 基本 块 的 平均 大 小 最 多 才 包 含 5 条 指 
令 。 在 基本 块 内 的 静态 指令 调度 称 为 局 部 调度 。 编 译 器 在 基本 块 内 移动 指令 是 安全 的 ， 因 为 当 
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代码 运行 时 ， 指 令 的 执行 不 会 造成 不 确定 性 的 异常 。 然 而 ， 由 于 在 基本 块 内 存在 很 多 指令 级 并 
行 的 限制 ， 所 以 编译 器 也 会 在 全 局 调度 代码 。 全 局 代码 调度 比 局 部 代码 调度 要 复杂 得 多 。 下 面 
我 们 先 看 一 下 局 部 指令 调度 。 

局 部 指令 调度 

举 一 个 简单 的 例子 ， 这 个 例子 实现 内 存 中 两 个 向 量 相 加 : 


for {i=0;i<100;i++) 


A[i] = A[i] + BI[i]; 
一 个 完全 没有 优化 的 简单 汇编 代码 实现 这 个 循环 ， 如 下 所 示 : 
Loop  L.S F0,0(R1) (1) \ 

L.S F1,0(R2) (1) 

ADD.S F2,F1,F0 2 

S.S F2,0(R1) (5) 

ADDI R1,R1,#4 (1) 

ADDI R2,R2,#4 (1) 

SUBI R3,R3,#1 人 元) 

BNEZ R3 ,Loop (3) 


在 括号 里 ， 我 们 标明 了 在 单 发 射流 水 线 机 器 上 指令 执行 需要 的 时 钟 周 期 数 。 对 于 非 分 支 指 
. 令 , 这 里 的 时 钟 周 期 就 是 它 在 译 码 阶段 所 花费 的 时 间 ， 包 括 由 于 和 之 前 指令 有 数据 冲突 造成 的 
阻塞 时 间 。 对 于 分 支 指令 ， 可 能 是 1 个 时 钟 周期 (分 支 未 跳 转 ) 或 者 是 3 个 时 钟 周期 (分支 跳 
转 ) ， 这 是 因为 在 取 指 和 译 码 阶段 中 的 两 条 指令 在 每 次 分 支 跳 转 之 后 都 要 被 刷 掉 。 上 述 循环 的 
每 次 迭代 所 用 的 时 钟 周期 数 是 15， 所 以 CEI 是 15/8 =1. 875。 

由 于 分 支 每 次 都 是 预测 不 跳 转 ， 所 以 大 多 数 情 况 下 分 支 指 令 之 后 的 两 条 指令 都 被 分 支 给 刷 
掉 了 。 解 决 办 法 之 一 是 重 构 编译 后 的 指令 ， 把 分 支 指令 放 到 循环 体 的 最 上 面 ， 这 样 在 大 多 数 情 
况 下 分 支 都 是 不 跳 转 的 。 

一 些 指令 集 采 用 延迟 分 支 技术 ， 该 技术 会 延迟 分 支 指令 的 影响 。 比 如 ， 分 支 被 延迟 一 条 指 
令 的 意思 是 ， 在 分 支 指令 后 的 一 条 指令 总 是 执行 ， 然 后 分 支 才 被 处 理 。 假 如 分 支 被 延迟 两 条 指 
令 ， 编 译 器 就 应 当 总 能 将 两 条 指令 移 到 延迟 槽 中 ， 这 样 的 话 ， 条 件 分 支 的 代价 就 总 是 只 有 一 个 
时 钟 周期 。 然 而 ， 编 译 器 也 不 是 总 能 找到 有 用 的 指令 来 填充 延迟 槽 ， 此 时 编译 器 就 必须 在 延迟 
槽 中 填充 无 操作 指令 (NOOP) ， 其 效果 等 价 于 刷 掉 流水 线 中 的 两 个 流水 级 。 除 此 之 外 ， 延 迟 
分 支 还 有 其 他 的 一 些 问题 (比如 异常 处 理 ) 。 ; 

不 过 至 少 编译 器 可 以 在 循环 体内 对 代码 进行 移动 ， 比 如 用 一 些 非常 简单 的 代码 移动 和 转换 
技术 。 在 这 个 例子 中 ， 编 译 器 可 以 首先 考虑 将 SUBI 指令 移 到 上 面 去 ， 因 为 没有 相关 冲突 , 编 
译 器 可 以 一 直 把 它 移 动 到 第 2 个 load 之 后 。 类 似 地 ， 两 条 ADDI 指令 可 以 移动 到 store 指令 之 
前 。 不 过 这 里 有 个 小 问题 需要 注意 : 在 R1 寄存 器 上 会 存在 WAR 相关， 因为 更 新 R1 寄存 器 的 
ADDI 指令 被 移 到 了 store 指令 之 前 ， 而 store 指令 也 需要 用 到 RI1 寄存 器 的 内 容 。 这 个 相关 可 以 ， 
通过 调整 store 指令 的 偏 移 量 来 轻松 解决 ， 调 整 后 的 代码 如 下 : 


Loop L.S FO0,0(R1) (1) 
L:S Fl1,0(R2) (1) 
SUBI R3,R3,1 (1) 
RDD.S F2,F1,F0 (1) 
ADDI R1,R1,#4 (1) 
ADDI R2',R2,#4 (1) 
S.S F2,-4(R1) (3) 


BNEZ R3,Loop (名 ) 
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如 上 所 示 ， 代 码 中 每 次 迭代 所 用 的 时 钟 周期 变 成 了 12， 所 以 CPI 是 12/8 =1.5， 速 度 提 升 
了 25% 。 这 一 提升 幅度 不 容 小 视 ， 而 且 我 们 只 付出 了 很 少 的 代价 。 假 如 编译 器 可 以 越过 基本 
块 边界 移动 代码 ， 那 么 速度 就 可 以 进一步 大 幅度 提升 。 

全 局 指令 调度 

全 局 指令 调度 比 局 部 指令 调度 更 强大 ， 因 为 相对 于 在 基本 块 内 的 编译 优化 方法 ， 全 局 指令 
调度 可 以 调度 更 多 的 指令 。 静 态 调 度 的 一 个 主要 优化 目标 是 循环 体 ， 循 环 体 可 以 在 源 代码 级 进 
行 识别 ， 所 以 可 能 用 于 编译 器 优化 。 针 对 循环 体 的 全 局 调度 也 称 作 循 环 调度 。 循 环 展开 和 软件 
流水 就 是 两 类 著名 的 循环 调度 技术 。 而 非 循 环 调度 技术 则 包含 踪迹 调度 。 

在 循环 展开 技术 中 ， 循 环 体 被 展开 若干 次 。 为 了 避免 一 些 本 不 需要 展开 的 例外 情况 ， 原 循 
环 展开 的 次 数 必须 恪守 某 一 精确 值 一 一 既 不 能 多 ， 也 不 能 少 。 

重新 回顾 上 面 实现 两 个 向 量 相 加 的 代码 。 在 图 3-12 中 ,我 们 将 循环 体 展开 了 两 次 。 在 第 
一 次 (图 3-12a) 编译 器 对 代码 进行 了 复制 ， 同 时 移 除 了 分 支 和 地 址 寄存 器 的 元 余 更 新 ， 调 整 
了 两 个 store 的 偏 移 量 。 基 本 块 的 大 小 现在 也 几乎 增加 了 一 倍 。 然 而 ,由 于 寄存 器 上 的 WAW 和 
WAR 相关 ， 代 码 在 新 的 更 大 的 基本 块 上 也 很 难 再 移动 了 ， 比 如 编译 器 不 能 将 第 三 条 load 指令 
移 到 第 一 条 ADD.S 上 面 ， 因 为 在 F0 上 存在 着 WAR 相关 。 同 样 第 一 条 store 指令 也 不 能 移 到 第 
二 条 ADD. S 的 下 面 ， 因 为 在 FE2 上 存在 着 WAW 相关 。 


循环 展开 两 次 


L.S FO0,0(R1) 
L.S F1,0(R2) 
ADD.S F2,F1,FO0 
S.S F2,0(R1) 


重 命 名 浮 点 寄存 器 


L.S FO,0(R1) 
L.S F1,0(R2) 
RDD.S F2,F1,FO0 


重新 调度 


L.S FO0,0(R1) (1) (1) 
L.S F1,0(R2) (1) (1) 
aS 3 da tN (LITE 
L.S F4,#4(R2) (1) (1) 


S.S F2,0(R1) 


L.S F0,#4(R1) 
L.S Fl1,#4(R2) 
ADD.S F2,F1,FO0 
S.S F2,#4(R1) 
ADDI R1,R1,#8 
ADDI R2,R2,#8 
~ SUBI R3,R3,#2 
BNEZ R3,Loop 


L.S F3,#4(R1) 
L.S F4,#4(R2) 
ADD.S FS5,F3,F4 
S.S F5,#4(R1) 
ADDI RI1,R1 ,#8 
RDDI R2,R2,#8 
SUBI R3,R3,#2 
BNEZ R3,Loop 


ADD.S F2,F1,F0 
ADD.S FS5,F3,F4 
SUBI R3,R3,#2 
ADDI R1,R1 ,#8 
ADDI R2,R2,#8 
S:S F2,#-8(R1) 
S.S F5,#-4(RI) 
BNEZ R3,Loop 


(1) (2) 
(1) (2) 
(1) (1) 
(1) (1) 
(1) (1) 
(1) (1) 
(1) (1) 
(3) (4) 


拷贝 循环 体 两 次 ， 
删除 宛 余 指令 ， 
调整 跳 转 偏 移 

a) b ) c) 


消除 WAW 和 WAR 相 关 load 上 移 ，store 下 移 ， 


调整 跳 转 偏 移 





图 3-12 循环 展开 示例 


为 了 消除 这 些 假 相 关 〈WAR 和 WAW) ， 编 译 器 对 浮 点 寄存 器 进行 了 重 命名 ， 如 图 3-12b 
所 示 。 重 命名 是 避免 假 相 关 (名 字 相 关 ) 问题 的 通用 技术 。 假 相关 及 其 造成 的 冲突 是 由 于 存 
储 限制 (寄存 器 或 内 存 ) 引起 的 。 如 果 有 无 限 多 的 寄存 器 或 内 存 ， 那 么 编译 器 就 总 能 将 新 值 
分 配 到 新 的 寄存 器 或 者 内 存 地 址 ， 所 以 WAR 和 WAW 相关 就 能 消除 。 在 图 3-12 中 ， 新 的 浮 点 
寄存 器 被 分 配给 循环 体 的 第 二 次 迭代 ， 因 此 在 新 的 循环 体 中 寄存 器 FI、FL 和 了 2 被 重 命名 为 
F3、F4 和 FF5。 现 在 load 可 以 被 移 上 去 了 ， 而 store 可 以 被 移 下 来 ， 如 图 3-12c 所 示 。 这 个 代码 
在 图 3-8 中 的 CPU 流水 线 中 不 会 阻塞 。 需 注意 的 是 ，store 指令 的 地 址 被 重新 调整 了 。 在 每 个 指 
令 后 面 的 括号 里 显示 了 在 译 码 阶段 每 个 指令 花费 的 时 钟 周期 数 〈 第 一 个 数字 ) ， 展 开 后 循环 体 
迭代 一 次 需要 14 个 时 钟 周期 ， 相 当 于 7 个 时 钟 周期 执行 一 次 原先 循环 的 迭代 和 没有 优化 的 
循环 体 相 比 ， 加 速 比 是 15/7 =2. 14。 

图 3-12 的 第 二 个 括号 的 数字 显示 的 是 图 3-10 超 流水 线 中 每 个 指令 需要 的 时 钟 周 期 数 ， 假 
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定 浮 点 操作 还 是 五 级 流水 。 在 超 流水 线 中 执行 展开 后 循环 体 的 一 次 迭代 需要 17 个 时 钟 周期 ， 
相当 于 8. 5 个 时 钟 周期 执行 一 次 原先 循环 的 迭代 。 但 因为 时 钟 频 率 是 原来 的 2 倍 ， 所 以 加 速 比 
是 2 x15/8.5 =3.25。 

代码 在 图 3-11 的 超标 量 机 器 上 表现 得 不 是 很 好 ， 这 主要 是 因为 在 代码 中 浮 点 指令 的 比重 
很 小 。 图 3-13 给 出 了 调度 过 程 以 及 真实 程序 。 可 以 看 到 展开 后 的 循环 体 每 次 迭代 需要 14 个 时 
钟 周期 ， 所 以 加 速 比 是 30/14 =2.14。 


调度 过 程 真实 程序 


L.S FO0,0(R1) CL LS, FO, 0 (R1) 
L.S F1,0(R2) En ~ L.S F1,0(R2) 


L.S F3,#4(R1) (1) L.S F3,#4(R1) 
L.S F4,#4(R2) (1) L.S F4,#4(R2) 
SUBI R3,R3,#2 ADD.S F2,F1,F0 (1) SUBI R3,R3,#2 
ADDI R1,R1,#8 ADD.S F5,F3,F4 ‘(1) ADD,;S F2,F1,F0O 
ADDI R2,R2,#8 (1) ADDI R1,R1 ,#8 
S.S F2,#-8(R1) (3) ADD:S FS5,F3,F4 
S.S F5,#-4 (R1) (1) ADDI R2,R2,#8 
BNEZ R3,Loop (3) S.S F2,#-8(R1) 
SS 'F5, #-4 (R1) 
BNEZ R3,Loop 


a) b) 





图 3-13 在 双 发 射 超标 量 机 器 中 的 循环 展开 


当 和 迭代 之 间 相 互 独立 的 时 候 ， 循 环 展开 比较 合适 ， 此 时 没有 跨 和 迭代 之 间 的 依赖 。 跨 和 迭代 依 
赖 是 指 在 循环 中 不 同和 迭代 的 语句 之 间 的 相关 性 〈 相 对 于 循环 内 相关 而 言 ， 后 者 也 是 之 所 要 做 循 
环 展开 的 原因 ) 。 举 个 例子 ， 一 个 简单 的 循环 如 下 : 

for (i=5;i<100;i++) 

Ali] = ALi-5] + BI[i]; Y 

假如 这 个 循环 展开 5 次 ， 第 五 次 迭代 将 对 第 一 次 迭代 的 RAW 相关 ， 因 此 限制 了 指令 级 并 
行 的 程度 。 第 五 次 循环 迭代 必须 等 待 第 一 次 循环 迭代 的 结果 ， 因 此 循环 中 的 跨 和 迭代 依赖 限制 了 
循环 展开 的 效果 。 

循环 展开 的 另 一 个 限制 是 ISA 中 可 寻 址 的 寄存 器 数量 ， 因 为 在 移动 代码 时 ， 不 可 避免 地 要 
做 寄存 器 重 命名 。 还 有 一 个 缺点 是 循环 展开 会 导致 代码 量 的 膨胀 。 

另 一 个 循环 调度 技术 是 软件 流水 ， 这 种 技术 将 原 有 循环 转换 成 另 一 个 循环 ， 新 的 循环 将 原 
先 循环 中 具有 相关 性 的 指令 放 在 多 个 迭代 间 流 水 执行 。 比 如 上 一 个 静态 代码 调度 的 例子 ， 编 译 - 
器 可 以 将 循环 变 成 两 个 部 分 : 第 一 个 部 分 由 两 个 load 和 一 个 Add 组 成 ， 第 二 个 部 分 由 一 个 
store 组 成 。 

表 3-13 中 每 一 列 对 应 于 原 循环 的 每 一 次 近 代 (0_ITE) ， 而 每 一 行 对 应 流水 循环 的 每 一 次 、 
迭代 (P_ITE)。 为 了 正确 开始 和 结束 流水 循环 ， 前 后 还 各 需要 增加 一 个 前 序 (prolog) 和 收尾 
(epilog) 的 代码 片段 。 请 注意 ， 不 管 这 份 代码 是 按 列 执行 还 是 按 行 执行 ， 执 行 的 都 是 相同 的 代 
码 序列 。 流 水 循环 代码 如 下 : | 


Prolog: 工 .S FO0,0(R1) 
L.S F1,0(R2) 
SUBI R3,R3,1 
ADD,S F2,F1,F0 
ADDI R1,R]1 ,#4 
ADDI R2,R2,#4 
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Loop S.S F2,#-4 (R1) (1) 
L.S F0,0(R1) (1) 
L.S F1,0(R2) (1) 
SUBI R3,R3,1 (1) 
ADD.S F2,F1,FO0 (1) 
ADDI R1,R1,#4 (1) 
ADDI R2,R2,#4 (1) 
BNEZ R3,Loop (3) 


Epilog: S.S F2,#-4(R1) 


新 代码 中 的 主 循环 避免 了 原 循 环 中 的 阻塞 ， 并 且 没 有 使 用 额外 的 浮 点 寄存 器 。 每 个 迭代 的 
执行 时 间 是 10 个 时 钟 周期 ， 相 对 于 原 程序 加 速 了 50% 。 和 循环 展开 技术 不 同 ， 软 件 流 水 生成 
的 新 循环 代码 其 大 小 和 原 循 环 是 相同 的 ， 对 地 址 寄存 器 和 分 支 的 操作 次 数 也 都 没有 改变 。 不 
过 ,我 们 需要 两 个 额外 的 代码 片段 ( 称 为 prolog 和 epilog) 来 启动 和 结束 软件 流水 。 


表 3-13 ”软件 流水 示例 


O_ITE1 O_ITE2 O_ITE3 


L.S FO, 0 (R1) 
Prolog L.S Fl1, 0 (R2) 
ADD.S F2,F1,FO0O 
L.S FO,0 (R1) 
S.S F2,0(R1) L.S F1,0 (R2) 
ADD.S F2,F1,F0 
L.S FO,0 (Rl1) 
S.S F270 (R1) L.SF1,0 (R2) 
ADD.S F2,F1,F0O 
L.S F0,0(RI) 
SS F2,0(R1) L.S F1,0 (R2) 
ADD.S F2,F1,FO0O 


OE ET 


为 了 进一步 提升 指令 级 并 行 度 ， 大 幅 提高 超 流 水 /超标 量 处 理 器 的 性 能 ， 编 译 器 可 以 同时 
采用 循环 展开 和 软件 流水 技术 。 不 过 ， 采 用 的 顺序 很 重要 一 一 首先 是 循环 展开 ， 然 后 是 软件 流 
水 。 这 是 因为 软件 流水 会 引起 跨 迭 代 的 依赖 ， 从 而 降低 循环 展开 的 效率 。 


3. 3.6 静态 流水 线 的 优 缺 点 


静态 流水 线 最 主要 的 优点 是 硬件 简化 ， 因 此 相对 于 复杂 硬件 来 说 具有 时 钟 频率 上 的 优势 。 
因为 静态 流水 线 简单 ， 其 性 能 也 是 可 预测 的 ， 而 且 编 译 器 可 以 利用 代码 的 全 局 信息 来 静态 地 优 
化 性 能 。 不 仅 如 此 ， 静 态 流 水 线 消耗 的 能 量 / 功 耗 也 更 少 ， 因 为 很 多 在 复杂 硬件 上 动态 执行 的 
活动 可 以 转移 到 编译 器 上 完成 。 

不 幸 的 是 ， 静 态 调度 流水 线 并 不 擅长 处 理 动态 事件 ， 比 如 条 件 分 支 ， 异 常 和 cache 失效 等 。 
事实 上 ， 本 部 分 讨论 的 微 架 构 机 制 都 不 能 处 理 cache 失效 (包括 L cache 和 D- cache miss) 。 这 
里 解决 cache 失效 的 唯一 方法 是 冻结 处 理 器 ， 重 填 cache， 然 后 再 重新 执行 这 个 周期 的 操作 。 静 
态 流水 线 一 次 也 只 能 访问 一 次 主 存 ， 因 此 无 法 有 效 解 决 内 存 墙 问题 ， 除 非 在 核 内 支持 多 线程 技 
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术 ， 在 一 些 现代 处 理 器 中 应 用 了 这 项 技术 ， 我 们 将 在 第 8 章 中 进行 介绍 。 

静态 〈 编 译 器 ) 指令 调度 还 受 限 于 编译 时 动态 信息 的 缺失 ， 比 如 内 存 地 址 。 当 访 存 指令 
在 代码 中 需要 被 移动 时 ， 需 要 内 存 地 址 来 检测 并 解决 访 存 操作 的 相关 性 。 

静态 流水 线 所 需 的 编译 器 也 会 更 加 复杂 ， 尤 其 是 在 代码 的 生成 阶段 和 优化 阶段 ， 后 者 非常 
依赖 于 微 架 构 。 利 用 编译 器 来 优化 性 能 这 是 可 以 接受 的 ， 然 而， 争议 在 于 是 否 需 要 编译 器 来 确 
保 程序 执行 的 正确 性 。 比 如 ， 一 些 静 态 机 器 可 能 在 硬件 上 不 支持 前 递 或 流水 线 阻 塞 ， 而 是 依赖 
编译 器 在 两 条 相关 指令 之 间 插 人 不 相关 指令 或 者 NOOP 指令 来 确保 其 满足 指令 延迟 的 需要 。 这 
个 方法 虽然 简化 了 硬件 ， 但 是 编译 生成 的 二 进 制 文件 在 指令 集 相 同 但 指令 延迟 不 同 的 机 器 之 间 
却 不 可 移植 ， 这 违背 了 向 后 兼容 的 原则 。 这 种 情况 下 ， 当 把 二 进 制 文件 从 某 一 机 器 上 移植 到 另 
一 机 器 上 时 ， 二 进 制 文件 必须 进行 静态 翻译 或 者 动态 解释 执行 。 

最 后 ， 也 许 是 最 重要 的 ， 假 如 指令 不 是 按照 程序 序 完 成 执行 的 ， 精 确 中 断 就 难以 有 效 处 
理 。 随 着 流水 线 深度 的 增加 以 及 指令 发 射 宽度 的 提高 ， 复 杂 性 也 会 增加 。 鉴 于 此 种 原因 ， 由 于 
硬件 的 简单 性 和 功 耗 优势 ， 静 态 流 水 线 普 遍 应 用 于 藤 人 式 领 域 ， 而 动态 流水 线 则 更 多 地 用 于 通 
用 环境 。 当 然 ， 由 于 核 内 多 线程 技术 的 出 现 ， 这 种 趋势 也 可 能 在 将 来 发 生 逆转 。 


3.4 动态 调度 流水 线 
在 静态 架构 中 ,指令 需要 等 到 与 之 前 发 射 的 指令 没有 相关 性 时 才能 发 射 。 结 构 相 关 、 数 据 
相关 和 控制 相关 在 译 码 阶段 会 全 部 解决 。 一 旦 指令 通过 译 码 阶段 就 不 会 阻塞 了 ， 除 非 发 生 了 异 
常 。 因 此 ， 静 态 流 水 线 只 能 通过 发 据 基 本 块 内 的 指令 级 并 行 (ILP) 来 实现 性 能 优化 ， 当 然 基 
本 块 可 以 通过 编译 器 来 扩展 ， 尤 其 对 于 循环 体 而 言 。 
为 了 提高 指令 级 并 行 度 ， 指 令 应 该 可 以 在 满足 相关 性 的 前 提 下 以 任何 顺序 执行 ， 而 不 是 一 
定 要 按照 程序 序 执行 。 图 3-14 展示 了 动态 调度 指令 是 如 何 提高 图 3-8 中 简单 流水 线 的 执行 效率 
的 。 这 是 一 个 将 两 个 向 量 相 加 的 简单 循环 程序 ， 图 3-14 中 标明 了 在 静态 流水 线 中 ， 译 码 阶 段 
每 条 指令 需要 的 时 钟 周期 数 。 由 于 与 加 法 指令 的 相关 性 ，store 需要 5 个 时 钟 周期 。 正 如 图 中 显 
示 的 那样 ， 虽 然 store 在 译 码 阶段 被 阻塞 了 ， 但 是 后 续 的 指令 还 是 能 够 被 取 到 ， 并 且 绕 过 store 
指令 。 这 两 条 add 指令 ， 一 条 sub 指令 ， 甚 至 还 有 一 条 分 支 指令 (需要 小 心 )， 都 可 以 在 store 
指令 发 射 之 前 就 进行 译 码 和 发 射 。 这 样 的 话 可 以 将 执行 周期 数 压缩 4 个 变 成 11 个 时 钟 周期 ， 
从 而 获得 比 局 部 静态 调度 更 好 的 性 能 。 
Loop L.S FO,0(R1) {1) 
L.S Fl1,0(R2) (1) 
ADD.S F2,F1,F0 (2) 
S.S F2,0(R1) (5) 
ADDI Ri1,R1,#4 (1) 
ADDI R2,R2,#4 (1) 


SUBI R3,R3,#1 (1) 
BNEZ R3,Loop (3) 






ADDI RI1 


ADD.S F2 
图 3-14 乱 序 执行 
不 过 这 里 还 有 一 个 小 问题 ， 那 就 是 R1 上 store 和 add 指令 WAR 相关 。 编 译 器 能 够 调整 
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store 的 偏 移 量 ， 但 是 静态 硬件 通常 无 法 动态 完成 这 些 。 不 仅 如 此 ， 当 越 来 越 多 的 指令 被 阻塞 并 
且 能 够 通过 译 码 阶段 的 旁 路 发 射出 去 时 ，: 硬 件 的 复杂 度 也 会 迅速 提高 。 因 此 ， 一 个 新 的 、 可 扩 
展 的 动态 调度 方法 是 必需 的 ， 整 个 流水 线 架构 需要 从 头 考虑 。 

对 于 这 一 新 的 流水 线 架构 有 几 个 基本 的 需求 。 为 了 支持 乱 序 (0o0) 执行 指令 ， 有 些 问 题 
必须 解决 : 第 一 ， 所 有 的 数据 相关 需要 解决 。RAW、WAW 和 WAR 数据 相关 无 处 不 在 ,它们 
存在 于 寄存 器 和 内 存 操作 数 中 。 第 二 ， 控 制 相关 一 定 要 和 解决。 指令 一 定 要 能 够 跨越 条 件 分 支 执 
行 ， 否则 ， 指 令 级 并 行 会 被 基本 块 的 大 小 所 限制 。 第 三 ,结构 相关 必须 解决 。 两 个 指令 不 能 在 
相同 的 时 钟 赂 期 占用 相同 的 硬件 资源 。 第 四 ， 对 于 某 些 异 常 来 讲 ， 必 须 确保 精确 异常 模型 。 显 
而 易 见 ， 图 3-14 中 的 简单 流水 线 结构 没有 解决 这 些 问题 的 资源 ,我 们 需要 一 个 完全 不 同 的 硬 
件 架构 来 解决 上 述 问题 。 


3.4.1 解决 数据 相关 : Tomasulo 算法 


3-15 中 的 微 架构 受到 了 Tomasulo 算法 的 启发 ， 该 算法 最 早 是 在 20 世纪 70 年 代 部 署 在 
IBM3033 模型 上 的 。 它 解决 了 寄存 器 和 访 存 操作 数 因为 乱 序 执行 产生 的 数据 相关 ， 但 它 没有 解 
决 由 于 条 件 分 支 或 异常 引起 的 控制 相关 。 


区 er/ 
rarich 


value + tag 





图 3-15 Tomasulo 算法 的 硬件 结构 


在 机 器 流水 线 前 端 〈frontrend) 中 ,指令 顺序 从 指令 cache 中 获取 ,然后 被 放置 到 一 个 先 
进 先 出 (FIFO) 的 取 指 队列 〈IQ) 里 。 队 列 前 面 的 指令 会 被 译 码 然后 分 发 (dispatch) 给 三 
个 发 射 队列 中 的 一 个 (取决 于 操作 码 ) : 一 个 针对 整 型 和 分 支 指令 的 发 射 队列 ,一 个 访 存 指令 
的 发 射 队列 ， 以 及 一 个 浮 点 指令 发 射 队列 。 指 令 在 相应 的 发 射 队列 中 进行 等 待 ， 直 到 其 源 操 作 
数 可 用 。 源 操作 数 包 含 寄 存 器 -寄存 器 指令 和 分 支 指令 的 源 寄 存 器 、load 指令 的 地 址 以 及 store 
指令 的 地 址 和 待 写 入 值 。 指 令 执 行 的 结果 通过 公用 数据 总 线 (CDB) 传输 给 分 散在 各 个 队列 中 
等 待 的 指令 。 一 旦 所 需 的 操作 数 全 部 就 绪 ， 指 令 就 可 以 在 队列 对 应 的 功能 单元 中 执行 了 。 当 执 
行 完 成 后 ， 指 令 通 过 公用 数据 总 线 将 写 寄存 器 的 结果 写 人 所 有 需要 该 结果 的 发 射 队列 项 中 ， 这 


80 第 3 章 





个 寄存 器 写 操 作 发 生 在 时 钟 周期 的 后 沿 。 

分 发 逻辑 在 将 指令 送 给 机 器 流水 线 后 端 之 前 可 以 发 现 所 有 的 寄存 器 相关 。 机 器 的 后 端 主要 
由 发 射 队列 和 功能 部 件 组 成 。 每 个 发 射 队列 项 关联 一 个 画 〈 在 本 例 中 ID 至 少 需要 4 位， 以 区 
分 队列 中 的 总 共 15 项 ) 。 指 令 从 分 发 时 就 先 保留 一 个 发 射 队列 项 ， 到 执行 结束 后 再 释放 ， 并 且 
指令 的 目的 寄存 器 在 其 分 发 时 由 对 应 的 队列 项 了 D 来 标识 。 这 些 标识 也 同 寄存 器 堆 中 的 寄存 器 
相关 联 。 

分 发 逻辑 首先 根据 指令 操作 租 分 配 一 个 发 射 队列 项 。 之 后 ， 它 将 这 条 指令 的 源 寄 存 器 连同 
其 标识 取出 。 如 果 输 入 寄存 器 的 标识 为 有 效 ， 那 么 这 个 寄存 器 的 值 是 一 个 旧 值 ， 并 且 新 值 在 后 
端 待定 。 这 种 情况 下 ， 分 发 逻辑 将 这 个 标识 保存 在 发 射 队列 项 的 输入 操作 数 域 中 ， 并 且 设 置 该 
项 为 未 就 绪 。 否 则 ， 若 寄存 器 的 标签 是 无 效 的 ， 那么 这 个 寄存 器 中 的 值 是 正确 的 ,分 发 逻辑 就 
会 将 寄存 器 值 存放 在 调度 队列 项 的 操作 数 域 ,并 标 为 就 绪 。 最 后 ,分 发 逻辑 将 发 射 队列 项 的 
ID 保存 在 指令 目的 寄存 器 的 标识 域 中 。 

当 指 令 的 写 寄存 器 结果 在 公用 数据 总 线 上 传输 时 ， 其 值 和 目的 寄存 器 标识 都 会 被 放 到 总 线 
上 。 总 线 上 的 标识 值 和 所 有 发 射 队列 中 的 所 有 操作 数 项 进行 匹配 ， 并 将 值 写 到 所 有 匹配 成 功 的 
项 中 ， 同 时 将 其 标记 为 就 绪 。 男 外 ， 寄 存 器 堆 也 通过 总 线 上 的 标识 对 寄存 器 进行 访问 。 如 果 寄 
存 器 的 标识 同 CDB 上 的 标识 匹配 ， 则 将 值 写 入 寄存 器 并 将 寄存 器 标识 置 为 无 效 。 否 则 ， 如 果 
寄存 器 组 中 没有 标识 与 CDB 上 的 标识 匹配 ， 那 么 CDB 上 的 值 就 不 会 写 到 寄存 器 中 。 

在 发 射 队 列 中 等 待 的 指令 在 所 有 操作 数 都 可 用 后 就 可 以 执行 。 在 操作 数 就 绪 的 下 一 拍 ， 指 
令 可 以 被 选中 发 射 到 功能 部 件 中 ， 前 提 是 功能 部 件 可 用 并 且 数 据 总 线 也 可 用 (上述 条 件 消除 了 
功能 部 件 和 CDB 的 结构 相关 ) 。 当 指令 发 射 后 ， 在 指令 需要 的 周期 内 ， 相 应 的 功能 部 件 和 公用 
数据 总 线 就 都 被 占用 了 。 

对 于 load 和 store 指令 ， 有 一 个 叫 作 地 址 生成 单元 (AGU) 的 专用 功能 部 件 来 生成 地 址 。 
load 队列 和 store 队列 结合 起 来 组 成 load/store 队列 。 i 
射 的 内 存 访问 ， 并且 解决 乱 序 访 存 相关 性 。 

在 进行 指令 分 发 时 ，load 指令 除了 在 访 存 发 射 队列 中 占 一 项 外 ， 还 需要 在 load 队列 中 分 配 
一 项 。 一 直到 指令 执行 完成 前 ，load 队列 项 里 始终 记录 着 load 指令 的 地 址 值 。 它 也 可 以 作为 
cache 返回 数据 的 阶段 缓冲 区 。 指 令 分 发 时 ，store 指令 在 store 队列 中 分 配 一 项 ， 并 且 被 拆 分 成 
两 条 子 指令 在 不 同时 间 发 射 : 一 条 ( 记 为 store-A) 等 待 地 址 ， 另 一 条 【〈 记 为 store-D) 等 待 数 
据 。 两 条 指令 都 被 分 发 到 访 存 发 射 队 列 ， 并 且 需 要 通过 地 址 生成 单元 (尽管 store-D 指令 绕 过 
了 加 法 器 ) 。store 队列 项 会 将 store 指令 的 地 址 和 数据 一 直 保 存 到 store 可 以 在 cache 中 执行 为 
止 。 因 此 store 队列 分 两 步 进 行 填充 ， 并 且 这 两 步 可 能 发 生 在 不 同 的 时 间 。 每 一 条 分 发 的 load 
指令 也 会 携带 对 应 最 新 分 发 的 store 操作 所 对 应 的 -store 队列 项 标识 。 通 过 这 个 标识 ，load 指令 
可 以 搜索 到 所 有 先 于 它 执行 但 还 没有 写 到 cache 的 store 指令 。 

访 存 操作 数 引 起 的 RAW、WAW 和 WAR 相关 可 以 通过 load/store 队列 发 现 和 人 解决。 准备 好 、 
的 load 可 以 发 射 到 cache 中 ， 当 且 仅 当 队 列 中 在 它 前 面 没 有 相同 地 址 的 store 指令 ; 准备 好 的 
store 指令 可 以 发 射 到 cache， 当 且 仅 当 队 列 中 在 其 之 前 没有 相同 地 址 的 load 或 store 指令 。 实 际 
中 ， 同 一 时 间 相 同 地 址 的 load 和 store 都 在 等 待 执行 的 情况 很 少见 。 然 而 ， 主 要 问题 是 队列 中 
某 些 load 或 store 的 地 址 可 能 是 未 知 的， 比如 还 没 计 算出 来 。 在 此 情况 下 ， 为 了 安全 起 见 ， 硬 
件 必须 假设 这 些 地 址 一 样 。 这 种 策略 十 分 保守 并 且 限 制 了 load 和 store 在 cache 中 的 乱 序 执行 。 
上 面 这 种 通过 比较 访 存 地 址 来 避免 相关 性 的 过 程 叫 作 内 奉 歧 义 消除 。 

最 后 ， 分 支 指令 被 当 作 整 型 指令 对 待 。 它 们 在 发 射 队 列 中 等 待 操作 数 ， 然 后 ， 通 过 公用 数 
据 总 线 将 结果 传送 给 分 发 逻辑 。 分 发 逻辑 在 处 理 分 支 指令 时 阻塞 ,并 且 等 待 其 结果 。 如 果 分 支 
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没有 跳 转 ,分 发 逻辑 仍然 从 队列 中 继续 调度 指令 。 如 果 分 支出 现 跳 转 ,分 发 逻辑 将 清空 取 指 队 
列 ， 指 导 取 指 单元 从 目标 地 址 取 指 并 且 填 充 取 指 队列 。 
Tomasulo 算法 通过 寄存 器 重 命名 来 消除 寄存 器 操作 数 的 相关 性 。 在 任意 时 刻 ， 在 后 端 可 能 
有 多 个 对 应 同一 寄存 器 的 结果 ， 分 发 逻辑 可 以 将 寄存 器 重 命名 到 某 个 产生 该 值 的 发 射 队列 项 。 
Tomasulo 算法 中 的 寄存 器 重 命名 ”在 下 面 的 程序 中 ,我 们 解释 了 寄存 器 值 相关 
(RAW，WAW，WAR) 是 怎样 通过 Tomasulo 算法 一 步 一 步 解决 的 。 
L.S BE0,0(R1L) 
ADD.S Fl1,F1,FO 
L.S F0,0(R2) 
按照 这 个 序列 ， 第 二 条 load 指令 将 数据 存储 到 Fo 可 能 只 要 几 个 周期 (D-cache 中 命中 )， 
而 第 一 条 load 的 D-cache miss， 可 能 需要 数 百 个 周期 。 所 以 第 二 条 load 指令 在 第 一 条 load 指令 
完成 之 前 早 就 执行 完了 。 然 而 ，ADD. S 依然 可 以 读 到 正确 的 值 ， 因 为 它 会 通过 公用 数据 总 线 
上 相应 的 标识 值 等 待 第 一 条 load 得 到 的 结果 ， 并且 第 二 条 1oad 对 应 不 同 的 发 射 队列 项 ， 因 此 有 
不 同 的 标识 。 这 将 确保 第 一 条 load 指令 和 ADD.S 在 FO 上 存在 RAW 相关 ， 同 时 也 会 避免 
ADD. S 和 第 二 条 load 之 间 在 Ff0 上 存在 WAR 相关 s 此 外 ， 最 终 F0 的 值 将 会 是 第 三 个 load 产生 
的 值 ， 因 为 在 第 二 个 load 指令 被 分 发 后 ，F0 的 标识 将 会 被 改 成 第 二 个 load 指令 在 发 射 队列 项 
中 的 标识 ， 并 且 ,F0 等 待 数据 总 线 上 出 现 第 二 个 load 产生 的 值 。 一 旦 F0 通过 数据 总 线 得 到 第 二 
条 load 指令 的 值 ， 它 的 标识 将 会 无 效 并 且 和 忽略 之 后 数据 总 线 上 出 现 的 第 一 条 load 产生 的 值 ， 这 
样 第 一 条 load 指令 产生 的 值 就 不 会 被 存储 到 寄存 器 中 。 本 
Tomasulo 算法 下 的 执行 过 程 ” 为 了 进一步 掌握 Tomasulo 算法 的 工作 过 程 , 我们 
将 一 步 一 步 跟踪 以 下 代码 片段 的 执行 过 程 : 
Loop L.S FO0,0(R1) 
L.S F1,0 (R2) 
ADD.S F2,F1,F0O 
S.S F2,0(R1) 
ADDI R1,R1,#4 
ADDI R2,R2,#4 


SUBI R3,R3,#1 
BNEZ R3,Loop 


整 型 和 分 支 指令 执行 时 间 是 1 个 时 钟 周 期 。 浮 点 指令 执行 过 程 流水 化 且 需 要 5 个 周期 。 所 
有 的 cache 访问 (指令 和 数据 ) 命中 时 间 是 1 个 周期 。store 指令 被 分 成 两 条 子 指令 : 一 个 计算 
地 址 , 一 个 获取 数据 ， 两 者 都 会 被 分 发 到 访 存 队列 。AGU 和 cache 阶段 分 别 需 要 1 个 周期 。 分 
发 (1 个 周期 ) 是 一 项 复杂 操作 : 它 要 取 寄 存 器 值 ， 分 配 发 射 队列 和 oad/store 队列 资源 ， 并 
且 重 命名 寄存 器 。 当 发 射 队列 (对 所 有 指令 来 说 ) 或 load/store 队列 (只 针对 访 存 指令 来 说 ) 
满 时 ,会 暂停 从 取 指 队列 中 进行 指令 分 发 。 发 射 ( 或 调度 ) 也 需要 1 个 周期 包括 从 发 射 队列 
选取 就 绪 指 令 ， 解决 功 能 部 件 和 公用 数据 总 线 的 冲突 ， 以 及 分 配 一 条 选中 指令 到 空闲 的 功能 部 
件 。 指 令 执 行 的 结果 在 数据 总 线 上 的 传输 也 需要 一 个 周期 。 

表 3-14 给 出 了 每 条 指令 执行 的 不 同 阶段 的 周期 数 。 指 令 按 照 处 理 程序 序 或 者 分 发 顺序 列 
在 连续 行 中 。 每 一 列 对 应 一 个 流水 级 ， 从 分 发 到 写 结 果 : 每 个 表 项 给 出 了 指令 流 过 该 流水 线 级 
时 的 时 钟 周 期 数 ， 周 期 1 开始 执行 第 一 个 load 的 分 发 。 地 址 生成 单元 可 以 认为 是 load 和 store 
的 执行 单元 。 当 条 件 满 足 时 ， 紧 接着 开始 cache 访问 。 该 表 按 时 钟 周期 逐步 填充 ， 每 次 发 射 一 
条 指令 时 ， 必 须 确保 预 留 其 所 需 的 资源 (比如 第 一 级 的 执行 单元 、cache 以 及 公用 数据 总 线 
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等 )。 这 些 需 预 留 的 资源 在 括号 中 做 了 标记 。 
表 3-14 Tomasulo 算法 执行 示例 
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ADDI R2 ，R2 ， 杭 4 8 (9) 9 一 
TR 


LS F1, 0(R2) 
ADD. S F2, F1, FO 


从 这 个 表 中 我 们 可 以 得 出 关于 这 种 体系 结构 行为 的 一 些 结论 。 最 重要 的 是 ,由 于 管理 指令 
执行 的 开销 ， 操 作 延 迟 被 拉 长 了 。 例 如 ， 即 使 寄存 器 - 寄存 器 指令 只 要 1 个 周期 并 且 在 静态 流 
水 中 的 操作 延迟 可 以 是 0， 然 而 在 这 里 ， 有 相关 的 指令 必须 在 执行 之 前 等 待 3 个 周期 ， 因 此 有 
效 的 操作 延迟 是 2 个 周期 。Tomasulo 算法 的 优点 是 可 以 乱 序 执行 ， 这 在 表 中 的 “开始 执行 ”这 
一 列 就 可 以 明显 看 出 来 。 这 次 计算 中 的 关键 路 径 包 括 load、 之 后 的 ADD.S， 以 及 再 之 后 的 
store， 其 他 所 有 指令 可 以 和 该 关键 路 径 并 行 执行 。 

分 支 指令 起 到 了 类 似 “ 屏 障 ” 的 作用 ， 指 令 级 并 行 很 难 跨 越 基本 块 进行 挖掘 。 为 了 将 分 
支 指令 的 影响 降 到 最 低 ， 当 分 发 逻辑 在 等 待 分 支 结 果 的 时 候 ， 取 指 阶段 可 以 同时 对 目标 地 址 
(分 支 跳 转 ) 和 连续 地 址 (分支 不 跳 转 ) 两 个 方向 的 指令 进行 预 取 和 译 码 ， 这 样 一 旦 分 支 结 果 
出 来 之 后 ,无 论 跳 转 与 否 ， 待 执行 的 指令 都 已 经 完成 了 译 码 阶段 。 

最 后 ， 这 个 动态 微 架构 也 可 以 利用 静态 (编译 器 ) 调度 的 结果 。 比 如 ， 如 果 编 译 器 将 判 
断 分 支 是 否 跳 转 的 减法 指令 提前 ， 那 么 分 支 指令 的 结果 提前 几 个 周期 便 可 得 知 。 < 


3.4.2 推测 执行 


典型 的 基本 块 都 太 小 了 ， 以 至 于 无 法 提供 足够 的 机 会 来 完全 利用 动态 调度 处 理 器 的 优势 。 
然而 要 想 在 分 支 指令 结果 出 来 之 前 还 能 继续 执行 的 话 ， 还 面临 很 多 挑战 。 在 分 支 结果 确定 之 前 
就 继续 执行 也 称 为 推测 执行 (speculative) 或 “猜测 执行 "a。“ 推测 指令 执行 ”的 语义 表明 这 个 
执行 可 能 是 无 效 的 ， 因 为 指令 该 不 该 执行 在 执行 的 时 候 还 是 不 确定 的 。 : 

一 旦 指令 被 推测 执行 了 ， 那 么 在 这 条 指令 确定 应 该 被 执行 之 前 ， 微 结构 都 必须 有 办 法 消除 
推测 执行 指令 的 影响 。 指 令 执行 的 影响 主要 包括 对 存储 的 修改 ， 主 要 是 内 存 地 址 和 指令 集 可 见 
的 寄存 器 和 异常 等 。 在 确定 某 个 修改 能 回 滚 之 前 ， 推 测 执行 指令 是 不 能 修改 存储 器 的 ， 由 推测 
执行 指令 引发 的 异常 也 必须 丢弃 。 通 常 做 法 是 ， 为 推测 指令 执行 的 结果 提供 一 个 临时 存储 位 置 
来 保护 存储 器 ， 当 推测 指令 成 为 确定 指令 的 时 候 ， 再 把 这 些 临 时 结果 提交 到 结构 状态 中 。 除 了 
临时 存储 ,该 策略 还 需要 一 个 灵活 有 效 的 技术 来 对 推测 指令 进行 回 滚 。 

推测 执行 的 方法 可 能 有 很 多 种 。- 在 程序 执行 的 任何 时 刻 来 看 ， 程 序 的 未 来 执行 过 程 都 可 以 
看 成 是 一 棵 由 基本 块 组 成 的 树 ， 如 图 3-16 所 示 。 树 里 面 的 每 条 边 代 表 了 一 个 基本 块 ， 每 个 节 
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点 代表 了 一 个 二 路 分 支 。 在 树 的 最 顶端 是 当前 块 和 当前 PC 指针 ， 这 个 指针 指向 基本 块 的 第 一 
条 指令 。 在 当前 基本 块 内 执行 的 指令 是 非 推测 的 ， 但 是 下 面 的 指令 执行 都 是 推测 的 。 


当前 PC 一 一 一 > 


条 件 分 支 


Pe 


推测 执行 


图 3-16 推测 执行 表示 成 基本 块 构成 的 树 


推测 执行 的 可 能 方法 之 一 是 全 路 径 执行 ， 在 这 种 方法 中 ， 每 个 分 支 的 两 边 都 被 执行 到 ， 从 
而 遍历 了 整 棵 树 。 随 着 分 支 条 件 结果 的 确定 ， 一些 执 行 过 的 推测 指令 变 成 非 推测 的 ， 它 们 的 结 
果 会 被 提交 ， 而 其 他 的 则 被 丢弃 。 虽 然 全 路 径 执 行 方法 有 可 能 达到 最 高 的 性 能 ， 但 是 非常 复 
杂 ， 实 现代 价 也 很 高 。 之 所 以 复杂 是 因为 微 架构 必须 跟踪 基本 块 在 树 中 的 执行 轨迹 ， 使 它 能 够 
划分 哪些 存储 更 新 需要 提交 ， 哪 些 异 常 是 有 效 的 。 不 过 全 路 径 执行 的 最 大 问题 还 是 高 昂 的 代 
价 。 这 是 因为 虽然 有 用 的 指令 数目 随 着 树 的 深度 线性 增长 〈 某 条 路 径 上 的 指令 数 ) ， 但 同时 推 
测 指 令 数 却 随 着 树 的 深度 呈 指 数 增长 (一 棵 树 中 指令 总 数 )。 潜 在 的 速度 提升 随 着 树 的 深度 
(或 者 推测 执行 的 层 数 ) 增加 而 很 快 饱和 ， 因 为 与 此 同时 所 需 的 功能 部 件 以 及 控制 和 取消 部 件 
的 数量 会 呈现 爆炸 性 增长 。 所 以 往 前 推测 得 越 远 ， 执 行 的 有 效 性 就 越 是 急剧 降低 。 

一 个 更 经 济 的 方法 是 在 执行 树 中 只 跟踪 最 有 可 能 执行 的 路 径 一 一 单 路 径 a 这 种 方法 通过 预 
测 条 件 分 支 的 输出 来 实现 ， 具 体 的 做 法 是 每 当 条 件 分 支取 指 和 译 码 之 后 ， 就 对 其 结果 进行 预 
测 ， 并 沿 着 预测 路 径 按照 贪心 算法 不 断 往 下 执行 ， 并 逐个 处 理 碰 到 的 分 支 指令 。 通 过 这 种 方 
法 ， 推 测 执行 指令 的 数目 会 和 推测 执行 的 层 数 成 正比 ， 这 样 就 比 全 路 径 有 效 多 了 。 不 仅 如 此 ， 
由 于 推测 执行 的 指令 序列 是 线性 的 ， 所 以 跟踪 、 回 滚 都 很 容易 ， 而 且 控 制 异 常 也 简单 多 了 。 这 
种 单 路 径 的 方法 被 大 多 数 的 商业 微 架构 所 采用 。 

还 有 一 种 折 中 的 方法 是 跟踪 部 分 路 径 而 不 是 所 有 路 径 。 大 部 分 分 支 可 以 很 准确 地 进行 预测 
(不 管 是 跳 转 还 是 不 跳 转 ) ， 在 这 种 情况 之 下 ， 就 只 处 理 最 有 可 能 的 路 径 。 然 而 ,仍然 有 少数 
分 支 是 无 法 预测 的 。 目 前 ， 不 管 是 静态 分 支 预测 算法 还 是 动态 分 支 预测 算法 都 已 经 变 得 非常 复 
杂 了 ， 进 一 步 的 性 能 提升 只 能 期 望 于 解决 不 可 预测 (也 即 执行 概率 各 半 ) 的 分 支 。 解 决 这 种 
分 支 的 方法 之 一 是 对 分 支 的 两 侧 都 推测 执行 ， 当 分 支 条 件 明朗 以 后 再 丢弃 不 需要 执行 的 一 侧 ， 
这 被 称 作 多 路 径 执 行 算法 。 不 过 这 种 方法 仍然 比较 复杂 ， 主 要 是 因为 跟踪 和 回 滚 非 线性 增长 的 
推测 指令 序列 本 身 就 很 复杂 。 


3. 4.3 “动态 分 支 预测 


对 于 任何 带 有 推测 执行 功能 的 高 效 微 架 构 而 言 ， 好 的 分 支 预测 算法 都 是 一 个 至 关 重 要 的 因 
素 。 分 支 预测 可 以 是 静态 或 者 动态 的 ， 静态 预测 可 以 是 硬化 的 或 者 基于 编译 器 的 。 在 3.3.4 节 
中 ， 我 们 看 到 一 些 基 于 指令 混合 和 指令 剖析 的 静态 技术 。 静 态 技术 无 法 适应 动态 情况 。 对 于 执 
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行 概率 各 半 的 分 支 ， 静 态 预测 难以 处 理 ， 而 对 于 动态 预测 来 讲 可 能 很 容易 。 比 如 ， 对 于 一 个 执 
行 概率 各 半 的 分 支 ， 可 能 执行 程序 的 前 一 半 部 分 都 会 跳 转 ， 而 后 一 部 分 都 不 跳 转 ， 这 种 动态 行 
为 只 有 通过 能 跟踪 分 支行 为 的 动态 机 制 (其 于 硬件 的 或 者 软件 的 ) 才能 捕获 到 。 

在 图 3-17 中 ，I-fetch 阶段 可 以 并 行 访问 分 支 预测 缓冲 区 和 指令 内 存 。 在 I-fetch 阶段 的 最 
后 ， 指 令 和 预测 位 都 准备 好 了 。 预 测 位 译 码 为 T( 跳 转 ) 或 者 U (不 跳 转 ) 。 如 果 指 令 不 是 分 
支 指 令 ， 那 么 预测 位 直接 丢弃 。 而 如 果 指 令 是 分 支 指 令 ， 那么 预测 位 决定 了 下 一 条 指令 的 地 
址 。 假 如 这 个 分 支 被 预测 为 不 跳 转 ， 那么 会 立即 到 PC +4 处 取 新 指令 。 否 则 (分支 被 预测 为 
跳 转 ) ， 在 取 下 一 条 指令 之 前 ， 首 先 需 要 得 到 分 支 的 目标 地 址 (这 个 问题 会 在 后 面 解决 。) 

指令 存储 器 ' 





分 支 预测 缓冲 区 


3-17 在 I-fetch 中 同时 访问 指令 和 分 支 预测 缓冲 区 


在 分 支 执行 完 之 后 ， 分 支 预测 结果 将 会 得 到 确认 ， 分 支 预测 缓冲 区 可 能 会 被 更 新 。 这 个 预 
测 缓冲 区 一 般 比 较 小 (1K ~250K 项 )， 通常 使 用 当前 程序 计数 器 的 若干 最 低位 来 访问 。 多 个 
分 支 之 间 可 能 出 现 重 名 ， 比 如 两 个 静态 分 支 可 能 映射 到 同一 个 预测 缓冲 项 ， 因 此 不 同 分 支 的 预 
测 结果 可 能 会 彼此 冲突 ， 这 可 能 导致 预测 准确 度 很 差 。 需 要 注意 的 是 ,这 不 是 正确 性 问题 ， 而 
是 一 个 性 能 问题 ， 并 且 可 以 通过 增 大 缓冲 区 来 改进 。 

预测 器 ， 

最 基本 的 动态 分 支 预测 器 叫 作 一 位 预测 器 ， 每 个 预测 缓冲 区 项 有 一 个 比特 位 ， 该 位 表明 这 
个 分 支 上 一 次 执行 的 时 候 是 否 跳 转 。 假 如 该 分 支 上 次 跳 转 了 ， 那 么 这 次 还 会 被 预测 为 跳 转 ， 假 
如 上 次 没有 跳 转 ， 那 么 这 次 也 预测 为 不 跳 转 。 换 句 话 说， 分支 的 预测 结果 和 它 上 一 次 执行 结果 
相同 。 

一 位 预测 器 主要 针对 的 是 控制 一 个 循环 体 是 否 退 出 的 条 件 分 支 。 不 管 分 支 指令 是 在 循环 的 
头 部 还 是 底部 ， 其 结果 在 整个 循环 中 不 断 重 复 且 保持 不 变 ， 直 到 最 后 一 次 迭代 ， 而 最 后 一 次 预 
测 不 可 避免 会 失败 。 因 此 ， 每 执行 一 个 循环 体 ,一 位 预测 器 会 预测 失败 两 次 。 


账 套 循环 中 的 一 位 预测 器 失败 率 ” 考 虑 如 下 的 带 有 由 套 循环 的 两 个 循环 体 : 


Loopl; ==- 
LOODZ2S "== 
BEZ R2, Loop2 


BNEZ R3,Loopl 


虚线 表示 任意 指令 。 不 管 loop 如 何 执行 ，loop2 的 迭代 次 数 都 是 100。 请 问 一 位 预测 器 的 预 
测 错误 率 是 多 少 ? 

循环 执行 的 时 候 ;，BEZ 在 大 多 数 情 况 下 会 跳 转 。 不过, 在 最 后 一 个 迭代 中 ， 它 不 应 该 跳 
转 , 但 是 会 被 错误 地 预测 为 跳 转 。 然 后 和 这 个 分 支 相关 的 预测 位 会 被 重 置 。 在 第 二 次 循环 中 ， 
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该 分 支 又 会 预测 错误 。 所 以 loop2 每 次 执行 会 导致 BEZ 预测 错误 两 次 。 假 如 loop2 执行 100 次 
迭代 ， 那么 错误 预测 的 比率 是 2% ， 这 个 错误 率 已 经 非常 小 了 ; 但 是 在 带 有 推测 执行 功能 的 处 
理 器 中 ,每 次 分 支 预测 错误 都 会 导致 很 多 指令 不 得 不 被 取消 。 < 

一 位 预测 器 的 问题 在 于 它 对 输出 结果 临时 改变 的 反应 过 于 迅速 。 假 设 一 个 分 支 在 跳 转 和 不 
跳 转 之 间 不 断 变化 ， 那 么 一 位 预测 器 就 总 是 会 预测 错误 。 即 使 这 种 模式 其 实 是 很 容易 预测 的 ， 
而 且 用 合适 的 预测 器 可 以 达到 100% 的 正确 性 。 

两 位 预测 器 提高 了 在 分 支 控制 循环 上 的 预测 正确 率 。 其 基本 出 发 点 是 在 两 次 连续 的 错误 
预测 而 不 是 一 次 错误 预测 之 后 ， 才 改变 预测 方向 。 一 个 简单 的 两 位 预测 器 可 以 用 2 比特 的 饱 
和 计数 器 来 实现 ， 每 个 计数 器 对 应 一 个 静态 分 支 指令 ， 如 图 3-18 所 示 。 分 支 一 旦 跳 转 ， 那 
么 饱和 计数 器 就 加 1， 如 果 分 支 未 跳 转 ， 计 数 器 就 减 1， 计 数 器 在 0 和 3 的 时 候 达到 饱和 。 
我 们 也 可 以 为 两 位 预测 器 设计 出 更 加 复杂 的 状态 图 ， 两 位 计数 器 的 不 同 状态 图 可 以 正确 预 
测 不 同 的 模式 。 两 位 预测 器 的 主要 贡献 是 把 在 循环 中 的 错误 分 支 预测 数量 减少 到 一 位 预测 
器 的 50% 。 这 是 因为 ， 当 执行 跳出 循环 的 时 候 ， 预 测 仍然 是 跳 转 ， 但 当 再 次 进入 循环 的 时 
候 ， 分 支 会 被 正确 预测 。 这 个 两 位 预测 器 也 不 能 消除 循环 退出 时 的 错误 预测 。 我 们 还 可 以 
设计 超过 两 位 的 计数 器 状态 图 。 然 而 ， 在 实际 中 ， 两 位 计数 器 几乎 已 经 发 所 了 这 一 简单 方 
法 的 所 有 潜能 。 

U 


00 了 
了 人 
U 










01 
Predict U 







10 
PredictT 


11 
(YO 
U 
图 3-18“ 带 饱和 计数 器 的 两 位 预测 器 状态 转换 图 


关联 分 支 预测 器 

另 一 个 提高 分 支 预测 器 的 想法 是 以 程序 序 跟 踪 先 前 分 支 的 输出 ;不 管 它们 是 相同 的 还 是 不 
同 的 静态 分 支 。 原 因 是 分 支 可 能 会 依据 到 达 它 的 执行 路 径 的 不 同 而 有 不 同 的 表现 行为 。 不 仅 如 
此 ， 分 支 的 输出 也 可 能 是 高 度 相 关联 的 ， 比 如 下 面 的 例子 : 


if. (a==2) 七 her a:=0; 

if (b==2)’ then b:=03 

if (al=b) “then === T 

显然 的 , 假如 a 和 b 都 等 于 2， 那 么 第 三 个 条 件 判 断 将 会 失败 。 不 仅 如 此 , 假如 a=2 且 b 
不 等 于 2， 那 么 第 三 个 分 支 将 有 可 能 成 功 。 最 后 ， 假 如 a 和 b 都 不 等 于 2， 那 么 一 切 都 不 确定 
了 。 这 种 相关 性 无 法 被 如 图 3-17 那样 的 简单 分 支 预测 缓冲 区 所 捕获 ， 预 测算 法 需要 跟踪 最 近 
执行 分 支 的 结果 。 前 m 个 条 件 分 支 的 输出 结果 可 以 保存 在 m 位 的 移 位 寄存 器 中 ,这 也 被 称 作 
全 局 分 支 历史 寄存 器 。 每 当 一 个 分 支 条 件 被 确定 时 ， 其 结果 (未 跳 转 (0) 或 者 跳 转 (1)) 就 
会 被 移 进 这 个 寄存 器 。 正 如 图 3-19 所 示 的 那样 ， 预 测 缓冲 区 通过 m 入 n 两 个 比特 位 的 组 合 进 
行 访问 ,其 中 m 个 比特 位 来 自 全 局 分 支 历 史 寄 存 器 ， 另 外 个 位 则 来 自 程序 计数 器 。 男 外 ， 如 
果 m=n， 那 么 分 支 预 测 缓冲 区 可 以 用 m 和 的 按 位 异 或 结果 来 访问 ， 这 种 情况 下 的 预测 器 被 
称 为 gshare。 
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图 3-19 带 有 全 局 分 支 历史 的 分 支 预测 缓冲 区 


两 级 预测 器 

关联 分 支 预测 器 的 成 功 ， 说 明 分 支 结果 和 先前 的 分 支 结果 是 相关 的 。 这 引出 了 两 级 分 支 预 
测 器 的 通常 形式 : 第 一 级 是 历史 向 量 或 者 表格 ， 它 既 可 能 是 某 条 特定 分 支 指令 对 应 的 之 前 的 分 
支 预测 输出 结果 (单个 地 址 的 历史 )， 也 可 能 是 所 有 分 支 的 预测 输出 结果 (全 局 历史 ) ; 第 二 
级 是 预测 表 ， 同 样 ， 它 既 可 以 是 单 地 址 的 ， 也 可 以 是 全 局 的 。 通 过 在 预测 处 理 中 加 入 更 多 的 信 
息 ， 预 测 会 更 加 准确 。 图 3-20 表明 了 4 种 可 能 性 。 在 下 面 的 两 级 预测 器 划分 中 ， 第 一 个 字母 
表示 历史 向 量 或 表格 (G 代表 全 局 ，P 代表 单个 地 址 (per-address) ) ， 并 且 最 后 一 个 字母 代表 
预测 表 (g 代表 全 局 ，p 代表 单个 地 址 ) 


全 局 历史 寄存 器 
测 
冀 
法 
分 支 PC 索 引 





2 名 
专 羽 要 
不 尔 尔 





图 3-20 ”两 级 分 支 预 测 器 


。 Gag,， 全 局 历史 表 和 全 局 预测 表 。 所 有 的 分 支 都 共享 历史 和 预测 器 。 具 有 相同 全 局 历史 
的 分 支 会 相互 干扰 ， 并 且 通 过 相同 的 比特 位 预测 。 

。 Gap， 全 局 历史 表 和 单 地 址 预测 表 。 所 有 分 支 共享 历史 ， 但 是 对 于 每 个 分 支 来 说 ， 预 测 
器 是 不 同 的 。 每 个 分 支 有 自己 的 预测 器 比特 位 ， 这 个 比特 位 基于 全 局 历史 更 新 。 这 是 
图 3-19 所 展示 的 预测 器 。 
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。 PAg， 单 地 址 历史 表 和 全 局 预测 器 表 。 每 个 分 支 的 历史 单独 记录 ， 但 是 预测 器 是 共享 
的 ， 所 以 若 所 有 的 具有 相同 地 址 历史 表 的 分 支 共 享 一 个 预测 需 ， 会 造成 预测 干扰 。 

。 了 PAp， 单 地 址 历史 表 和 单 地 址 预测 器 表 。 分 支 历 史 和 预测 器 对 于 每 个 分 支 来 说 都 是 私 
有 的 。 

组 合 预测 器 

分 支 预测 器 在 每 个 分 支 上 的 表现 并 不 完全 相同 。 对 于 不 
同 的 程序 或 者 一 个 程序 的 不 同 阶段 ， 不 同 预测 器 的 表现 也 不 
同 。 因 此 为 了 进一步 降低 错误 预测 率 ， 多 个 预测 器 的 预测 结 
果 经 常 通过 一 个 选择 器 或 者 投票 器 组 合 起 来 。 选 择 器 追踪 所 
有 预测 器 的 错误 预测 率 ， 并 且 基 于 它们 的 动态 跟踪 记录 ,在 
任何 时 候选 择 其 中 的 一 个 。 在 图 3-21 中 展示 了 3 个 预测 器 的 
组 合 。 

分 支 目 标 缓冲 区 图 3-21 3 个 预测 器 的 组 合 预测 

当 分 支 被 预测 为 不 跳 转 时 ,下 一 条 指令 的 位 置 是 (PC) +4。 然 而 ， 当 分 支 被 预测 为 跳 转 
时 ， 在 获取 新 指令 之 前 必须 确定 目标 地 址 。 在 分 支 指令 取 指 之 后 的 时 钟 周 期 内 ， 相 应 的 目标 地 
址 会 在 加 法 器 中 计算 出 来 。 因 此 ,每 次 分 支 预测 跳 转 之 后 ， 取 指 队 列 的 指令 供给 就 会 延迟 一 个 
时 钟 周期 。 

为 了 解决 这 个 问题 ， 可 以 在 工 fetch 阶段 加 入 一 个 叫 作 分 支 目 标 缓冲 区 (Branch Target Buffer， 
BTB) 的 小 容量 cache，BTB 中 保存 着 最 近 执 行 过 的 分 支 指令 的 目标 地 址 。BTB 非常 有 效 ， 因 
为 静态 分 支 的 目标 地 址 在 整个 执行 阶段 从 不 改变 。 如 图 3-22 所 示 ，BTB 没有 给 分 支 地 址 引入 
别名 ， 它 实际 上 被 组 织 成 分 支 目 标 地 址 的 直接 映射 cache。 为 了 避免 别名 和 执行 不 需要 的 指令 ， 
所 有 的 PC 位 都 会 被 确认 。 










Co 


图 3-22 ”分支 目标 缓冲 区 (BTB) 


通过 一 个 分 支 预测 缓冲 区 (Branch Prediction Buffer，BPB)、 一 个 BTB 以 及 在 I-fetch 阶段 
最 后 译 码 出 的 少量 操作 码 ， 就 可 以 预测 分 支 ， 并 且 其 目标 地 址 在 工 fetch 阶段 的 最 后 就 可 以 获 
知 ， 所 以 下 一 条 指令 在 下 一 个 周期 就 可 以 取 指 ， 而 不 需要 中 断 取 指 流 。 


3.4.4 支持 推测 的 Tomasulo 算法 


为 了 支持 跨 条 件 分 支 的 执行 ， 需 要 将 下 面 的 一 些 机 制 和 资源 加 和 到 Tomasulo 算法 中 : 分支 
预测 、 推 测 执行 结果 的 临时 存储 ， 以 及 从 错误 分 支 恢复 的 机 制 。 另 外 ， 还 必须 支持 精确 异常 。 
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基本 的 出 发 点 是 推测 地 执行 每 一 条 指令 ， 并 推迟 这 条 指令 执行 完成 的 影响 ， 直 到 这 条 指令 确定 
需要 被 执行 才 真正 提交 结果 。 因 此 指令 还 是 被 分 发 ， 执 行 ， 最 终 被 提交 ， 但 是 在 指令 提交 之 
前 ， 它 一 直 是 推测 性 的 ， 并 且 其 执行 过 程 可 以 被 回 滚 。 如 果 当 前 指令 之 前 的 分 支 被 预测 错误 或 
者 之 前 的 指令 引发 了 一 个 异常 ， 那 么 推测 执行 的 指令 就 可 能 回 滚 。 

在 之 前 的 非 推 测 执行 架构 中 加 入 这 些 单元 后 ， 新 架构 如 图 3-23 所 示 : 重 排序 缓冲 区 
(CROB) ， 分 支 目 标 缓冲 区 (BTB) ， 分 支 预测 缓冲 区 (BPB)。ROB 以 先进 先 出 (FIFO) 的 结 
构 组 织 ， 拥 有 两 个 功能 : 







Frontend 


integer 
registers 


Back-end 


图 3-23 支持 推测 执行 的 Tomasulo 算法 


。 记录 分 发 指令 的 程序 序 ， 以 帮助 其 从 错误 预测 的 分 支 和 异常 中 恢复 。 

。 作为 推测 指令 目标 寄存 器 的 临时 存储 器 。 

指令 按照 进程 序 取 指 并 且 以 进程 序 在 取 指 队列 中 移动 。 当 I-fetch 阶段 取 到 一 个 分 支 指令 
时 ， 它 在 BPB 中 进行 预测 ， 而 目标 地 址 则 从 BTB 中 获取 。 

分 发 单元 为 每 条 新 指令 分 配 一 个 ROB 项 和 一 个 发 射 队列 项 。 假 如 是 load 或 者 store 指令 ， 
还 会 男 外 分 配 一 个 load/store 队列 项 。 如 果 上 述 结构 中 某 一 个 已 经 满 了 ， 那 么 分 发 单元 必须 暂 
停 。 分 发 单元 的 第 二 个 作用 就 是 管理 寄存 器 重 命名 。 分 发 单元 跟踪 寄存 器 值 在 寄存 器 别名 表 
(register alias table，RAT) 中 的 位 置 。 一 个 整 型 或 者 浮 点 型 寄存 器 的 值 可 能 在 后 端 等 待 ， 也 可 
能 在 ROB 中 推测 执行 ， 还 可 能 在 寄存 器 堆 中 提交 。 结 构 寄存 器 通过 寄存 器 号 访问 RAT，RAT 
中 的 每 个 项 指向 对 应 寄存 器 最 新 的 值 所 在 的 位 置 (最 近 修 改 的 指令 对 应 的 标识 (tag) 或 者 是 
寄存 器 号 ) ， 外 加 一 个 位 标志 ， 表 示 其 值 是 否 在 后 端 等 待 (未 就 绪 ) 。 寄 存 器 通过 ROB 中 生成 
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该 寄存 器 值 的 指令 位 置 进行 重 命名 。 对 于 每 条 进入 的 指令 ， 分 发 单元 会 将 目标 寄存 器 重 命名 为 
分 配给 这 条 指令 (tag) 的 ROB 项 ， 并 且 检查 RAT 中 输入 操作 数 的 状态 ， 如 果 操 作 数 可 用 , (在 
ROB 中 或 者 寄存 器 堆 中 )， 分 发 单元 就 将 这 个 值 传 到 发 射 队列 (操作 数 就 绪 ) 。 若 操作 数 在 后 
端 等 待 中 ， 分 发 单元 就 发 送 分 配给 这 条 指令 的 ROB 项 编号 (操作 数 未 就 绪 )。 

从 分 发 开始 到 提交 ，ROB 中 的 项 会 保存 每 条 推测 执行 指令 的 记录 。 每 个 ROB 项 包含 若干 
个 数据 域 : 指令 类 型 、 目 的 寄存 器 号 、 目 的 寄存 器 值 和 完成 标志 位 。 目 标 寄 存 器 值 会 被 指令 的 
结果 值 填充 ， 而 指令 完成 之 后 ， 会 设置 其 完成 标志 位 。 

ROB 被 组 织 成 一 个 环形 的 FIFO 缓冲 区 ， 所 以 通过 ROB 
项 编号 ,每 个 结果 可 以 直接 写 人 指令 项 中 ， 也 可 以 很 容易 
刷 掉 一 部 分 缓冲 区 。 在 图 3-24 中 ，( 新 的 ) 分 发 指令 被 分 。 iop > 
配 到 “bottom” 指 向 的 ROB 项 中 ,被 “top” 指 向 的 指令 项 
则 可 以 退出 (retire) /提交 。bottom 指针 只 需要 简单 地 向 上 
移动 一 下 就 可 以 刷 掉 最 新 的 指令 。 

和 Tomasulo 算法 一 样 ， 当 操作 数 全 部 可 用 的 时 候 ; 发 
射 队列 中 的 指令 就 开始 执行 。 当 执行 完成 之 后 ， 指 令 把 结 
果 写 到 公用 数据 总 线 上 ， 在 发 射 队 列 中 等 待 这 个 结果 的 项 
捕获 这 个 结果 值 ， 结 果 值 被 写 人 ROB 项 ， 分 发 单元 再 将 
RAT 中 相应 的 值 修改 成 “可 用 并 且 是 推测 的 ” (available ”图 3-24 环形 FIFO 缓冲 实现 的 
and speculative) 。 需 注意 的 是 ， 这 里 的 值 通过 ROB 的 项 号 Mn ty 
直接 写 人 ROB。 寄 存 器 不 用 像 Tomasulo 算法 那样 保持 标识 (tag) 。 当 指令 到 达 ROB 的 顶部 时 ， 
寄存 器 就 会 更 新 。 

在 ROB 顶部 ， 推 测 执行 的 指令 按照 程序 序 退出 〈 提 交 ) 。 这 个 时 候 推测 指令 已 经 成 为 确定 
的 指令 了 (non-speculative) ， 因 为 所 有 的 指令 (包括 分 支 ) 都 已 经 无 异常 地 完成 。 在 退出 之 
前 ， 存 储 单元 (比如 寄存 器 或 者 需要 访 存 时 候 的 主 存 ) 进行 更 新 。 所 以 store 指令 只 有 在 到 达 
ROB 顶部 的 时 候 才 会 访问 数据 存储 (D-cache) ， 这 是 对 store 操作 执行 的 严格 限制 。 

分 支 的 输出 结果 会 记录 到 ROB 项 中 ,假如 它 和 之 前 的 预测 结果 不 同 ， 在 ROB 中 所 有 该 分 
支 之 后 的 指令 都 要 进行 回 深 ( 刷 掉 ) ， 同 时 该 分 支 指令 之 前 的 指令 要 全 部 提交 完成 。 比 较 方便 
的 做 法 是 等 到 分 支 指令 到 达 ROB 顶部 的 时 候 ， 再 刷 掉 ROB 中 的 所 有 指令 ， 流 水 线 后 端的 内 容 
也 要 全 部 刷 掉 。RAT 可 以 简单 设置 成 当前 所 有 有 效 值 都 保存 在 寄存 器 中 。 

异常 在 触发 的 时 候 首先 在 ROB 中 进行 标记 ， 直 至 引起 异常 的 指令 到 达 ROB 顶部 的 时 候 才 
会 真正 处 理 。 这 个 时 候 ， 整 个 ROB 和 后 端的 指令 都 会 被 刷 掉 ， 异 常 处 理 程序 才 会 开始 。 这 和 
五 级 流水 线 中 用 过 的 策略 一 样 ， 这 样 可 以 确保 所 有 的 异常 处 理 都 依据 进程 序 执行 

\ 


3.4.5 动态 内 存 歧 义 消除 


Tomasulo 算法 中 的 技术 适合 用 来 解决 访 存 相关 。 就 像 之 前 介绍 的 ，store 指令 在 分 发 的 时 候 
可 以 分 割 成 两 个 子 指令 : 一 个 在 AGU 中 计算 地 址 ， 一 个 传送 数据 到 store 队列 。 

load/store 队列 保持 load 和 store 指令 的 程序 序 ， 解决 访 存 的 所 有 相关 性 。 当 store 的 地 址 和 
数据 都 已 经 在 load/store 队列 中 就 绪 时 ， 我 们 认为 store 已 经 完成 (执行 完成 )。 已 经 完成 的 
store 指令 在 load/store 队列 中 等 待 提交 ， 当 它 到 达 ROB 顶部 的 时 候 就 可 以 提交 结果 到 cache， 
并 且 在 下 一 个 周期 退出 。 访 存 操作 数 上 的 WAW 和 WAR 相关 可 以 自动 解决 ， 因 为 store 指令 只 
有 在 到 达 ROB 顶部 的 时 候 ， 指 令 才 能 更 新 cache， 所 以 在 store 更 新 cache 的 时 候 ， 它 之 前 的 
load 指令 和 store 指令 都 已 经 提交 了 。 
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不 过 ，RAW 相关 则 必须 检查 。 主 要 有 两 种 方法 : 保守 方法 和 乐观 方法 。 在 保守 方法 中 ， 
当 load/store 队列 中 的 load 指令 和 所 有 之 前 在 load/store 队列 中 等 待 的 store 指令 的 地 址 都 已 经 
明确 之 后 ， 就 可 以 访问 eache。 若 队列 中 先 于 某 条 load 指令 的 store 指令 与 之 有 相同 的 访 存 地 
址 ， 那 么 load 指令 必须 等 待 该 store 指令 在 cache 中 执行 之 后 才能 发 射 执行 。 在 某 些 特殊 的 情况 
下 ，load 可 以 执行 返回 load/store 队列 中 最 新 store 的 数据 ,前提 是 它们 的 地 址 相同 ， 并 且 store 
的 数据 是 已 知 的 。 假 如 之 前 的 store 地 址 是 未 知 的 ， 那 么 硬件 必须 考虑 到 最 坏 的 情况 (store 和 
load 的 地 址 相同 ) ， 这 时 ，load 必须 等 待 store 的 地 址 明确 之 后 再 检测 它们 是 否 相 同 。 

不 过 实际 中 load 操作 依赖 队列 中 之 前 store 指令 结果 的 情况 是 很 少见 的 ， 因 此 可 能 采用 乐 
观 的 方式 更 合适 。 这 种 情况 下 ， 即 使 之 前 的 store 指令 地 址 还 不 知道 ，load 指令 也 可 以 推测 执 
行 来 访问 -cache。 后 续 当 store 指令 的 地 址 确定 时 ， 会 再 和 刚刚 完成 的 那个 load 指令 的 地 址 进行 
比较 。 假 如 发 现 地 址 一 样 ， 那 么 这 个 load 指令 和 其 后 的 所 有 指令 都 需要 重新 执行 。 在 图 3-23 
所 示 的 结构 图 中 ， 可 以 通过 刷 掉 ROB 中 load 及 其 后 续 指 令 的 方式 进行 重 放 ， 这 种 情况 就 好 像 
把 load 指令 当成 一 个 错误 的 分 支 指令 一 样 ， 再 从 load 指令 开始 重新 取 指 。 实 现 这 一 机 制 的 便捷 
方式 是 在 ROB 中 对 推测 执行 的 load 打上 标记 并 等 到 load 指令 到 达 ROB 顶端 进行 处 理 。 

最 后 ， 因 为 在 load/store 队列 中 的 RAW 相关 导致 的 回 滚 代 价 很 高 ， 所 以 有 必要 提前 预测 
load 指令 会 不 会 和 其 他 指令 相关 。 假 如 这 条 load 指令 相关 的 可 能 性 很 大 ， 那 么 就 采用 保守 的 方 
式 ， 否 则 采取 乐观 的 方式 。 

支持 推测 的 Tomasulo 算法 下 的 执行 过 程 ”我们 按照 逐个 周期 执行 的 方式 跟踪 
例 3. 2 中 的 一 段 代码 。 在 完成 表 3-15 时 ， 例 3. 2 中 的 假定 同样 适用 ,不同 之 处 如 下 : 

。 增加 一 个 新 的 退出 (retire) 流水 级 ， 指 令 完成 之 后 顺序 退出 。 

e stores 指令 必须 到 达 ROB 的 顶部 才能 更 新 cache。store 指令 在 load/store 队列 中 等 待 。 

注意 ,一 旦 store 指令 的 地 址 和 数据 就 绪 了 就 可 以 执行 ,计算 store 地 址 的 子 指令 不 会 单 
独 分 配 ROB 项 。 
。 支持 分 支 预 测 ， 因 此 分 支 的 后 续 指令 可 以 推测 分 发 


表 3-15 支持 推测 的 Tomasulo 算法 的 执行 示例 
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在 表 3-15 中 ，15 store 指令 通过 AGU 阶段 ， 在 第 15 个 时 钟 周 期 的 未 尾 ，store 的 数据 被 放 
入 load/store 队列 。 这 时 ，store 指令 的 地 址 也 在 load/store 队列 中 ,事实 上 ， 从 第 7 个 时 钟 周期 
开始 ， 地 址 已 经 得 到 了 。 这 对 之 前 的 访 存 操作 没有 影响 ， 因 为 此 时 前 面 的 访 存 操作 都 已 经 完成 
退出 了 。store 指令 可 以 在 下 一 个 时 钟 周 期 (时 钟 16) 更 新 cache， 因 为 之 前 (进程 序 ) 的 B 
指令 在 时 钟 14 的 时 候 已 经 退出 ， 所 以 从 时 钟 14 开始 store 指令 到 达 ROB 的 顶部 。 然 后 Store 指 
令 跳 过 CDB 总 线 阶 段 ， 在 下 一 个 阶段 (时钟 17) 退出 ,最 后 110 load 指令 的 地 址 在 第 12 个 时 
钟 周期 的 末尾 写 人 load/store 队列 。 之 前 瑟 对 应 的 store 指令 一 直 在 等 待 ， 但 是 从 第 7 个 时 钟 周 
期 开始 ， 它 的 地 址 就 已 经 是 确定 的 了 ， 并 且 和 I10 load 指令 的 地 址 不 同 ; 因此 load 指令 可 以 在 
第 13 个 时 钟 周期 访问 cache， 并 且 绕 过 之 前 的 store 指令 。 

在 表 3-15 中 ，I9 和 110 的 调度 过 程 显示 ,假如 不 采用 逐个 时 钟 周期 ， 而 是 采用 逐 行 的 方式 
填充 这 个 调度 表格 的 话 ， 是 很 危险 的 。 假 如 表格 用 逐 行 的 方式 填充 ，I9 指令 会 在 R3 寄存 器 的 
值 在 CDB 总 线 上 传播 (在 第 12 个 时 钟 周期 ) 之 后 立刻 发 射 ， 并 且 10 和 111 指令 会 被 延迟 。 
然而 事实 上 ，I10 指令 在 9 指令 之 前 就 已 经 就 绪 了 (在 第 11 个 时 钟 周 期 ) ， 所 以 110 一 定 会 像 
表 中 的 那样 先 发 射 。 这 种 调度 的 不 同 也 会 影响 指令 II1 和 112 的 调度 。 

本 例 中 的 执行 时 间 比 例 3. 4 的 执行 时 间 要 短 ， 这 主要 是 因为 分 支 之 后 的 load 指令 不 需要 等 
到 分 支 完 成 后 才 进 行 分 发 。 | 


3.4.6 显 式 寄存 器 重 命名 


目前 ， 我 们 介绍 的 ROB 既 可 以 控制 指令 的 提交 顺序 ， 又 可 以 用 来 支持 寄存 器 的 重 命名 。 
然而 ， 也 可 以 让 ROB 只 简单 地 用 于 追踪 指令 的 执行 顺序 ， 而 把 寄存 器 重 命名 的 功能 放 在 物理 
寄存 器 堆 中 显 式 完成 ， 而 不 再 依赖 于 ROB。 

物理 寄存 器 的 数量 比 结构 寄存 器 (也 就 是 指令 集 可 访问 到 的 寄存 器 ) 的 数量 多 。 结 构 寄 
存 器 动态 映射 到 物理 寄存 器 ， 在 任意 时 刻 ， 一 个 结构 寄存 器 可 能 需要 多 个 物理 寄存 器 来 保存 多 
个 推测 的 值 。 一 些 物理 寄存 器 需要 保持 结构 寄存 器 已 经 提交 的 数据 ， 这 样 做 是 为 了 预防 异常 的 
出 现 。 另 一 些 物理 寄存 器 则 需要 用 来 保持 结构 寄存 器 最 新 的 值 (推测 执行 或 者 非 推测 执行 的 最 
新 值 ) 。 

从 结构 寄存 器 号 到 物理 寄存 器 号 的 映射 是 通过 两 个 寄存 器 别名 表 (RAT) 的 映射 机 制 完 成 
的 。 第 一 个 映射 表 (前 端 RAT) 记录 了 每 个 结构 寄存 器 到 包含 其 最 新 值 (有 位 表示 这 个 值 
是 否 还 在 流水 线 后 端 等 待 结 果 ) 的 物理 寄存 器 的 映射 关系 ， 而 第 二 个 映射 表 (retirement RAT ) 
则 记录 了 结构 寄存 器 到 包含 它 最 新 提交 值 的 物理 寄存 器 的 映射 关系 。 这 两 个 映射 表 的 指针 可 能 
会 一 样 ， 在 这 种 情况 下 ， 结构 寄 存 器 最 新 的 值 也 是 其 最 近 提 交 的 值 。 

当 一 条 写 寄存 器 指令 到 达 分 发 阶段 时 ， 将 会 从 空闲 寄存 器 链表 中 分 配 一 个 新 的 物理 寄存 器 
来 保存 目标 结构 寄存 器 的 新 值 ， 前 端 RAT 会 查 表 来 获取 输入 寄存 器 操作 数 的 最 新 值 ( 假 如 这 
个 值 没 有 在 流水 线 后 端 等待 )。 如 果 值 没有 在 后 端 等 待 ， 物 理 寄 存 器 组 中 的 值 就 会 被 发 送 到 发 
射 队列 ; 否则 ， 就 会 把 物理 寄存 器 号 (对 应 之 前 介绍 机 器 中 的 tag) 发 送 到 发 射 队列 ， 并 且 将 
操作 数 域 置 成 未 就 绪 。 如 果 空 闲 链表 为 空 ， 分 发 单元 就 会 暂停 。 当 某 个 retired 值 被 对 应 的 同 二 
个 结构 寄存 器 的 另 一 个 retired 值 覆盖 之 后 ， 带 有 旧 的 retired 值 的 物理 寄存 器 就 会 被 释放 ， 并 加 
和 人 到 空闲 链表 。 从 计算 这 个 值 的 指令 被 分 发 开始 ,一 直到 对 应 相同 结构 寄存 器 的 另 一 个 新 的 物 
理 寄 存 器 retire 时 ， 整 个 过 程 中 ,物理 寄存 器 都 是 分 配给 这 个 值 的 。 

图 3-25a 给 出 了 一 个 带 有 32 个 结构 寄存 器 和 :128 个 物理 寄存 器 的 例子 。 在 这 个 例子 中 ,3 
个 物理 寄存 器 被 分 配给 结构 寄存 器 20， 一 个 是 存储 最 近 的 (推测 的 ) 值 ， 另 一 个 存储 最 近 的 
retired 值 ， 最 后 一 个 储存 另 一 个 推测 值 。 一 旦 计算 推测 值 的 指令 完成 retired， 这 个 推测 值 就 变 


和 -rs 


成 了 retired 值 。 因 为 带 有 这 个 推测 值 的 物理 寄存 器 的 引用 是 不 确定 的 ， 所 以 每 个 指令 的 ROB 
项 必须 跟踪 结构 寄存 器 和 物理 寄存 器 目标 的 映射 ， 这 样 一 来 ，retriment RAT 才能 在 指令 retire 
的 时 候 进行 更 新 。 






寄存 器 号 
(来 自 于 指令 ) 


退出 RAT 
(已经 退出 的 值 ) 


a) 


Wi (retired) value v1 Wo value v2 Wa Valuev3 Wa valuev4 


| R1 R1 R1RI1 | R2 | R3 R3 R3 | 分 发 时 间 


Wi: 写 vi 的 值 
b) Ri: 读 vi 的 值 
图 3-25 显 式 寄存 器 重 命名 


在 图 3-25b 中 进一步 说 明了 显 式 寄 存 器 重 命名 技术 ， 时 间 轴 上 标记 了 指令 的 分 发 时 间 。 图 
中 显示 了 在 修改 zl 的 指令 被 分 发 调度 时 (W4)， 某 个 特定 寄存 器 的 相关 映射 历史 情况 。 此 时 
对 应 1 一 共有 4 个 副本 ， 所 以 有 4 个 物理 寄存 器 都 被 分 配给 rl 了 。 被 Wl 修改 的 最 旧 的 值 
vl 是 retired 值 ， 并 且 retirement RAT 的 指针 指向 它 。 随 后 有 4 条 指令 读 取 了 v1， 它们 之 中 的 
一 些 指 令 可 能 仍然 在 后 端 或 者 在 ROB 中 进行 处 理 ,， 剩 下 的 则 已 经 retired。 在 W2 和 W3 时 分 
发 的 值 还 没有 retired, 读 VvV2 和 v3 值 的 指令 也 没有 retire。 最 近 的 值 是 在 W4 时 分 发 的 ， 并 通 
过 前 端 RAT 的 指针 指向 该 最 近 值 。 注 意 ， 即 使 指令 乱 序 执行 ,并且 同一 个 结构 寄存 器 存在 
多 个 副本 ， 指 令 仍然 能 正确 读 取 到 输入 寄存 器 操作 数 ， 因 为 这 个 寄存 器 会 被 映射 到 不 同 的 
物理 寄存 器 上 。 

当 分 支 预测 错误 的 时 候 ， 必 须 把 在 ROB 中 的 指令 刷 掉 ， 并 重新 恢复 前 端 RAT 的 值 ， 即 把 
它 恢复 到 错误 分 支 被 分 发 调度 之 前 的 样子 。 需 注意 的 是 ， 因 为 retirement RAT 映射 的 是 提交 的 
值 ， 所 以 不 需要 改变 。 最 简单 的 解决 分 支 预 测 错误 的 方法 依旧 是 等 到 分 支 到 达 ROB 顶部 的 时 
候 ， 刷 掉 整 个 ROB 和 流水 线 后 端 ， 并 拷贝 retirement RAT 到 前 端 RAT。 而 更 有 效 的 解决 方式 则 
是 ,一 旦 检测 到 错误 预测 分 支 就 着 手 解决 。 恢 复 前 端 RAT 的 方法 之 一 是 ， 在 每 次 分 支 指令 被 ， 
分 发 时 就 对 它 进行 保存 ， 当 分 支 预测 错误 时 ， 就 直接 重新 载 入 。 当 分 支 预测 错误 时 ， 回 收 的 物 
理 寄存 器 也 要 被 重新 加 入 到 空闲 链表 中 s 另 一 个 可 以 避免 每 次 分 支 时 保存 映射 表 的 解决 办 法 
是 ;从 retirement RAT 开始 ， 结 合 ROB 中 每 一 项 的 内 容 对 前 端 RAT 进行 重建 : 从 ROB 的 顶部 
一 直到 分 支 指令 ， 然 后 通过 保存 在 ROB 项 中 的 寄存 器 映射 信息 重新 对 每 个 寄存 器 进行 映射 。 
还 有 一 种 解决 技术 ， 那 就 是 从 当前 的 前 端 RAT 开始 , 通过 沿 着 ROB 一 步 一 步 往 前 退 ， 从 最 底 
部 一 直 退 到 分 支 指 令 ， 依 次 接触 所 有 的 分 配 映 射 。 这 种 方式 需要 在 ROB 的 项 中 保存 寄存 器 旧 
的 映射 表 。 这 种 技术 也 可 以 用 在 异常 处 理 上 ， 不 过 要 在 每 条 指令 上 都 保存 前 端 RAT 的 话 在 实 
际 中 不 大 可 行 。 
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3. 4.7 指令 发 射 后 的 寄存 器 读 取 


在 分 发 阶段 读 取 寄 存 器 的 值 使 得 指令 的 分 发 和 退出 变 得 更 加 复杂 。 退 出 变 得 复杂 是 因为 寄 
存 器 的 值 必须 物理 上 从 ROB 写 入 结构 寄存 器 组 中 (图 3-23 ) 。 在 支持 显 式 寄存 器 重 命名 的 机 器 
上 , 在 指令 退出 时 ， 只 有 很 少量 的 retirement RAT 需要 进行 更 新 。 

在 最 新 的 微 架 构 中 ， 分 发 阶段 通常 不 读 取 输入 寄存 器 操作 数 。 所 有 的 输入 寄存 器 值 在 指令 
从 发 射 队列 发 射 到 功能 单元 之 后 才 被 读 取 。 在 这 种 方法 中 ， 前 端 大 部 分 是 没有 变化 的 ， 只 有 分 
发 单元 里 的 重 命名 逻辑 需要 把 输入 寄存 器 的 物理 寄存 器 号 发 送 给 发 射 队 列 〈 并 且 加 上 一 个 就 绪 
位 )。 当 指令 在 CDB 总 线 上 完成 的 时 候 ， 它 将 在 发 射 队 列 中 等 待 指令 的 就 绪 位 进行 置 位 。 此 后 
选择 就 绪 指令 发 射 到 功能 部 件 。 被 发 射 指令 首先 访问 寄存 器 堆 来 获得 全 部 的 输入 操作 数 ， 然 后 
输送 到 对 应 的 功能 部 件 。 图 3-26 给 出 了 这 种 新 的 微 架构 。 


|-cache 





图 3-26 支持 显 式 寄 存 器 重 命名 和 发 射 后 寄存 器 读 取 的 推测 微 架构 


支持 发 射 后 寄存 器 读 取 的 执行 过 程 ” 假 设 使 用 例 3.4 中 的 相同 的 参数 和 代码 ,我 
们 来 完成 表 3-16。 假 设 寄存 器 堆 有 足够 的 带宽 支持 无 冲突 地 读 写 寄存 器 。 


表 3-16 Te 


开始 完成 
EE 
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LS F1, 0(R2) 
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mem | | io lo | wm | | 
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LS Fo, so | 《15 | (16) 
LS FI, 0(R2) ae 13 C10) | GIT 
ADD.S F2, Fl, FO0 


在 表 3-16 中 给 出 了 一 个 基本 循环 一 次 迭代 的 指令 调度 情况 ， 和 之 前 的 例子 一 样 ， 指 令 序 
列 的 功能 是 将 两 个 向 量 相 加 。 在 这 个 表 中 ， 假 设 访问 寄存 器 需要 一 个 周期 ， 并且 控制 指令 没有 
额外 的 开销 。 同 样 假设 在 前 端 分 支 已 经 正确 预测 。 执 行 过 程 和 例 3.4 中 的 非常 类 似 ， 只 是 在 发 
射 之 后 增加 了 一 个 流水 级 〈 寄 存 器 读 取 ) 。 

如 表 3-15 所 示 ，I9 和 110 的 调度 过 程 表 明 ， 调 度 表 必须 以 逐个 时 钟 周期 的 方式 进行 填充 ， 
而 不 能 按 逐 行 填充 的 方式 。 假 如 逐 行 填充 ，D 会 在 R3 的 值 传播 到 CDB 总 线 后 马上 发 射 ，I10 
则 会 被 延迟 。 然 而 实际 中 ，I10 在 9 之 前 就 已 经 就 绪 ， 所 以 10 必须 先 处 理 ， 如 表 中 所 示 的 
那样 。 

通过 这 种 新 方法 ， 和 支持 推测 的 Tomasulo 算法 相 比 ， 指 令 操作 的 有 效 延 迟 增加 了 1 个 时 钟 
周期 ， 所 以 执行 时 间 变 坏 了 。 实 际 上 ， 指 令 操作 的 延迟 较 长 是 目前 介绍 过 的 所 有 乱 序 处 理 器 结 
构 的 共同 弱点 。 即 使 在 基本 的 Tomasulo 算法 中 , 表 3-14 也 显示 指令 处 理会 导致 很 多 额外 的 开 
销 ， 所 以 指令 延迟 会 比 纯粹 指令 执行 时 间 延 迟 要 长 得 多 。 对 这 个 问题 的 补救 措施 之 一 是 ， 可 以 
从 发 射 队列 中 推测 发 射 指令 到 功能 单元 ， 并且 对 指令 执行 结果 进行 前 递 。 本 


3. 4.8 推测 指令 调度 


借助 于 推测 调度 机 制 ， 在 指令 的 输入 操作 数 可 用 之 前 ， 指 令 调度 单元 就 可 以 预测 指令 什么 
时 候 发 射 。 由 于 大 多 数 指令 的 操作 延迟 是 确定 的 ， 因 此 ， 指 令 调度 单元 可 以 在 父 指 令 发 射 并 且 
操作 延迟 满足 之 后 ， 马 上 调度 它 的 子 指令 。 在 推测 调度 的 决定 中 ， 像 公用 数据 总 线 这 样 的 资源 
冲突 也 需要 考虑 进来 。 如 图 3-27 所 示 的 那样 ， 后 端 需要 稍 加 修改 。 不 再 由 数据 总 线 来 唤醒 操 
作 数 ， 而 是 由 和 发 射 逻辑 相关 的 推测 指令 调度 单元 来 触发 唤醒 操作 。 不 但 如 此 ， 寄 存 器 的 值 也 
可 以 直接 前 递 给 进入 功能 单元 的 子 指令 ， 因 为 子 指令 已 经 被 推测 调度 ， 此 时 刚好 可 以 获取 到 父 
指令 的 结果 。 这 个 前 递 逻 辑 和 带 有 浮 点 单元 的 静态 五 级 流水 线 非常 相似 〈 见 图 3-8) 。 这 种 调 
度 机 制 可 能 会 在 指令 输入 操作 数 就 绪 和 指令 运行 结果 已 经 发 送 到 数据 总 线 上 这 两 个 时 刻 之 间 引 
人 更 多 的 流水 级 。 不 过 ， 只 要 推测 调度 能 够 成 功 ， 那 么 增加 的 延迟 就 不 会 影响 性 能 。 


等 待 R3 的 
值 ，CDB 流水 
级 中 和 10 以 
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图 3-27 支持 推测 调度 的 推测 微 架 构 后 端 


推测 调度 下 的 执行 过 程 ” 表 3-17 给 出 了 一 个 推测 调度 机 器 的 执行 调度 结果 ， 和 
例 3.5 使 用 相同 的 代码 和 假设 。 在 本 例 中 ， 指 令 基 于 父 指令 的 操作 延迟 进行 推测 发 射 ， 在 
load/store 队列 中 处 理 内 存 地 址 歧义 消除 以 及 等 待 store 指令 到 达 ROB 顶端 。 这 里 的 调度 假设 所 
有 的 调度 推测 都 是 正确 的 (常见 情况 )。 大 多 数 时 候 ， 结 果 都 通过 CDB 及 时 前 递 给 相关 的 
指令 。 


Ee 发 射 bs a cache | .CDB 
LSFO, 0(RI) 1 (4) 
L SF1, 0(R2) 2 (5) 
mi 玫 二 二 守 - 生 Ge 各 这 Co 
ead Ei = -3 


mee | sf le lem ee | Ohta 
ona Rm | 6 | 7 | s | oD) 
A 0 a rs 


pt a 
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在 表 3-17 中 ， 指 令 B 在 第 5 个 时 钟 周期 发 射 ， 以便 在 指令 开始 执行 时 (第 7 个 时 钟 周期 ) 
接收 指令 11 的 前 递 结果 。13 在 I1 load 指令 之 后 2 个 时 钟 周期 推测 执行 ， 因 为 load 指令 的 延迟 
是 2 个 时 钟 周期 (AGU + cache 访问 ) 。store 5 在 ADD. S 指令 之 后 的 5 个 时 钟 周期 推测 发 射 ， 
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这 样 当 store 到 达 AGU 时 ， 正 好 可 以 捕获 到 所 需 的 数据 。 在 第 12 个 时 钟 周期 的 结尾 ，store 操作 
锁 存 到 load/store 队列 中 。 先 前 的 指令 13 退出 后 ,在 第 13 个 时 钟 周期 ，store 指令 到 达 ROB 顶 
端 ， 因 此 store 指令 可 以 在 第 13 个 周期 更 新 cache。 

表 3-17 的 调度 比 先前 的 调度 ( 表 3-14 ~ 表 3-16) 都 要 紧凑 ， 这 是 因为 指令 处 理 的 开销 不 
再 位 于 关键 路 径 上 ， 只 有 指令 执行 的 延迟 位 于 关键 路 径 上 。 司 

图 3-28 给 出 了 一 个 支持 推测 的 广播 调度 器 ， 它 带 有 一 个 两 项 的 发 射 队 列 ， 支 持 每 个 时 钟 
周期 发 射 一 条 指令 。 当 指令 发 射 时 ， 它 的 结果 寄存 器 tag (目的 标签 ) 会 在 预测 的 指令 操作 延 
述 之 后 向 发 射 队 列 中 的 所 有 指令 广播 ， 以 便 通知 所 有 的 相关 指令 ， 如 果 它 们 在 下 一 个 周期 进行 
调度 ， 可 以 及 时 获得 所 需 的 操作 数 。 唤 醒 逻 辑 将 唤醒 总 线 止 的 寄存 器 tag 和 发 射 队 列 中 所 有 项 
的 两 个 输入 操作 寄存 器 tag (输入 tagl 和 输入 tag2) 进行 匹配 ， 如 果 找 到 对 应 匹配 ， 匹 配 操作 
数 的 就 绪 位 (rdyl 或 rdy2) 就 会 被 推测 置 位 。 当 所 有 的 指令 操作 数 都 就 绪 时 ， 该 指令 也 就 就 绪 
了 ， 然 后 它 会 发 送 一 个 请 求 信号 给 选择 逻辑 。 选 择 逻 辑 起 到 仲裁 的 作用 ， 它 负责 选择 下 一 条 执 
行 的 指令 ， 并 且 返 回 一 系列 信号 给 被 选中 的 指令 。 这 个 选择 逻辑 基于 某 个 特定 算法 (比如 最 老 
指令 优先 法 ) 来 选取 指令 ,但 是 要 避免 公用 数据 总 线 或 者 功能 单元 的 结构 冲突 。 图 3-28 中 的 
调度 器 可 以 扩展 成 带 有 更 多 项 的 发 射 队 列 ， 并 且 通 过 增加 唤醒 总 线 和 对 应 逻辑 ， 调 度 器 也 可 以 
扩展 到 在 一 个 时 钟 周 期 内 发 射 多 条 指令 。 


于 
mT Br ed 
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图 3-28 带 有 两 个 队列 项 的 广播 指令 调度 器 


利用 推测 调度 ， 多 条 已 发 射 的 相关 指令 可 以 同时 送 往 功 能 部 件 。 推 测 调度 单元 确保 在 父子 
指令 之 间 的 流水 线 时 钟 间隔 至 少 是 父 操作 的 延迟 。 如 果 所 有 指令 的 操作 延迟 都 在 调度 时 可 预 
测 ， 那 么 这 个 方法 就 非常 有 效 。 而 且 ， 除 了 load 指令 之 外 ， 在 其 他 大 多 数 情况 下 确实 都 是 这 样 
的 。 大 多 数 情况 下 load 指令 会 命中 Ll， 所 以 延迟 就 是 Ll 的 访问 时 间 。 然 而 ， 假 如 load 指令 没 
有 命中 LI1， 值 返回 的 时 间 就 被 延 后 了 ,从 而 依赖 load 结果 的 指令 就 会 错误 调度 。 此 时 调度 单 
元 必须 进行 修正 。 这 个 修正 过 程 可 以 通过 工 cache 和 ROB 来 重 放 load 和 其 后 的 所 有 指令 (这 里 
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的 load 指令 就 如 同 预测 错误 的 分 支 指令 一 样 处 理 ) 。 

通常 ， 相 比 于 从 ROB 中 重 放 ， 直 接 从 发 射 队列 中 重 放 指 令 可 以 设计 出 更 轻 量 级 的 重 放 机 
制 。 图 3-29 显示 了 一 个 简单 的 重 放 机 制 ， 每 个 物理 寄存 器 有 一 个 满 / 空 (FAE) 标志 位 ， 目 标 
寄存 器 的 FE 标志 位 在 指令 分 发 的 时 候 进 行 重 置 ， 当 指令 在 功能 部 件 〈FU) 执行 完 ， 写 入 或 
前 递 寄存 器 值 时 会 对 F/E 进行 置 位 ; 当 指 令 离开 调度 器 时 ， 它 会 被 拷贝 到 重 放 队 列 中 。 当 指令 
到 达 寄 存 器 阶段 〈 同 时 由 校 验 器 〈 图 中 的 checker) 进行 校 验 ) 时 ， 如 果 指 令 输入 寄存 器 的 
FE 标志 位 是 重 置 状 态 ， 说 明 这 条 指令 被 错误 调度 了 ， 它 会 被 循环 回去 重复 执行 。 指 令 经 过 校 
验 后 会 被 丢弃 。 错 误 调度 的 指令 不 会 更 改 它们 目的 寄存 器 的 FAE 位 ， 所 有 错误 调度 指令 都 按照 
图 3-29 中 的 指令 链 进行 传播 ， 这 个 指令 链 取决 于 第 一 条 被 错误 调度 的 指令 。 





图 3-29 带 有 重 放 队 列 的 预测 调度 器 


3. 4.9 打破 数据 流 限制 : 值 预测 


即使 支持 推测 调度 ， 相 关 的 指令 也 必须 等 待 它 的 父 指令 延迟 满足 之 后 才能 被 调度 。 所 以 ， 
想 在 输入 操作 数 准 备 好 之 前 就 执行 指令 ， 看 起 来 似乎 是 不 可 能 的 。 计 算 过 程 可 以 映射 成 一 张 数 
据 流 图 ， 在 这 张 图 中 ， 每 个 节点 是 一 条 指令 ， 指 令 延 迟 用 一 条 连接 父子 指令 的 弧 线 表示 。 每 一 
条 弧 线 标记 上 父 指令 的 执行 延迟 。 由 于 指令 必须 等 待 其 输入 准备 好 ， 因 此 一 次 计算 的 最 小 执行 
时 间 由 数据 流 图 中 关键 路 径 上 总 的 执行 延迟 所 决定 ， 这 就 是 所 谓 的 数据 流 限制 。 

研究 表明 许多 指令 的 结果 是 高 度 可 预测 的 。 许 多 静态 指令 常常 返回 相同 的 常量 值 或 者 一 个 
较 小 数据 集合 中 的 某 个 值 ， 其 他 一 些 指令 (例如 ， 更 新 地 址 寄存 器 的 指令 ) 也 常常 只 是 给 输 
入 值 增加 一 个 固定 的 常量 。 如 果 一 条 指令 的 输出 值 是 可 预测 的 ， 那么 可 以 通过 对 子 指令 进行 输 
入 值 预测 并 且 立 即 调度 来 推测 性 地 消除 父 指 令 和 子 指令 之 间 的 依赖 关系 。 当 然 ， 父 指令 也 必须 
执行 完毕 ， 这 样 才能 验证 预测 结果 的 正确 性 。 如 果 预 测 失败 ， 子 指令 和 它 的 所 有 相关 指令 必须 
重 放 执行 ， 重 放 可 以 通过 [eache 和 ROB 的 支持 来 实现 ， 或 者 使 用 像 图 3-29 中 那样 的 轻 量 级 重 
放 机 制 。 对 某 些 可 能 导致 cache 失效 的 Load 指令 进行 值 预测 ， 对 于 缩短 数据 流 图 中 关键 路 径 的 
长 度 是 非常 重要 的 。 由 于 值 预测 错误 会 造成 较 高 的 回 退 开销 ， 因 此 值 预测 应 当 仅 在 具有 高 时 延 
和 值 高 度 可 预测 性 的 指令 中 使 用 ， 静 态 指令 的 值 可 预测 性 可 以 通过 它 的 动态 命中 率 来 记录 。 

值 预测 很 容易 ， 并 且 可 以 很 高 效 地 在 图 3-23 、 图 3-26、 图 3-27 所 示 的 任意 一 种 支持 推测 
的 微 结构 上 下 文中 实现 。 接 下 来 的 例子 将 解释 值 预 测 是 如 何在 支持 推测 调度 机 制 的 处 理 器 中 实 
现 的 。 

人 本 劝 支持 推测 调度 的 乱 序 执行 处 理 器 中 的 值 预测 “如 图 3-27 中 所 示 的 支持 推测 调度 微 
结构 ， 利 用 指令 的 程序 计数 器 ， 可 以 在 流水 线 取 指 阶段 查找 值 预测 表 ， 然 后 返回 该 指令 执行 结 
果 的 预测 值 。 在 指令 分 发 阶段 ， 预 测 值 被 存储 在 物理 寄存 器 中 ， 并 且 被 标记 为 就 绪 状 态 。 后 续 
相关 指令 可 能 在 被 预测 指令 之 前 调度 执行 。 当 被 预测 指令 执行 完毕 、 结 果 写 回 寄存 器 时 ， 首 先 
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要 和 寄存 器 中 的 预测 值 做 比较 。 如 果 值 相等 ， 继 续 执 行 ; 否则 ， 这 条 被 错误 预测 的 指令 的 后 续 
所 有 相关 指令 必须 重新 执行 ,简单 的 重新 执行 机 制 可 以 通过 I-cache 和 ROB 进行 支持 。 4 


3. 4. 10 ” 单 周 期 多 指令 


图 3-23 和 图 3-27 所 示 的 结构 中 ， 每 个 时 钟 周期 调度 多 条 指令 的 主要 困难 在 于 需要 在 处 理 
器 的 前 端 重 命名 多 条 相关 指令 。“ 重 命名 一 条 指令 ”意味 着 重 命 名 指令 的 输入 寄存 器 操作 数 和 
输出 寄存 器 操作 数 。 指 令 必须 按照 线程 序 调度 。 重 命名 相关 指令 的 过 程 是 固有 串 行 的 。 在 最 坏 
情况 下 ， 重 命名 阶段 必须 为 在 同一 时 钟 周期 中 分 发 的 每 条 指令 访问 3 个 前 端 RAT 项 。 要 做 到 
这 一 点 ， 可 以 提高 重 命名 流水 级 的 频率 ， 或 者 采用 复杂 的 组 合 逻 辑 来 处 理 每 个 时 钟 周期 内 的 相 
关 性 和 重 命名 实现 。 当 然 ， 前 端 RAT 也 必须 提供 足够 的 端口 以 支持 这 么 大 的 分 发 带宽 。 

实现 单 周 期 多 指令 的 另 一 个 要 考虑 的 是 如 何 按照 所 要 求 的 频率 填充 取 指 队列 。 主 要 有 两 个 
问题 : (1) 多 分 支 处 理 ; (2) 路 I-cache 块 的 取 数 。 因 为 程序 中 每 5 ~ 10 条 指令 中 平均 就 有 1 
条 分 支 指令 ， 因 此 ，16 条 指令 的 分 发 带宽 就 需要 每 个 时 钟 周期 从 I-cache 中 取 16 条 指令 ， 这 
16 条 指令 中 很 可 能 包括 2 ~3 条 分 支 指令 ， 因 此 必须 对 多 个 分 支 进行 预测 。 当 这 些 分 支 预测 为 
跳 转 时 ， 就 需要 在 同一 周期 内 从 I- cache 的 不 同 块 中 取 指 令 。 即 使 这 16 条 指令 中 没有 分 支 指 
令 ，16 条 连续 指令 也 很 可 能 分 布 在 不 同 的 Leache 块 中 。 一 个 彻底 的 解决 方案 是 使 用 指令 踪迹 
cache 来 替换 传统 的 指令 cache。 不 同 于 静态 存储 顺序 保存 指令 的 普通 指令 cache，trace cache 保 
持 指令 (可 能 已 经 被 译 码 ) 的 动态 轨迹 。 与 普通 I-cache 不 同 ,一 次 取 指 可 以 从 trace cache 中 
按照 动态 线程 顺序 读 取 连 续 的 一 串 指 令 。 

最 后 ， 流 水 线 后 端 也 必须 仔细 设计 以 确保 没有 其 他 瓶颈 。 比 如 ， 必 须 提供 足够 的 功能 单元 
用 于 执行 操作 以 便 尽 可 能 降低 动态 指令 执行 时 的 结构 冲突 。 此 外 ， 可 能 还 需要 支持 多 个 CDB， 
如 果 只 有 一 个 CDB 的 话 ， 指 令 吞 吐 量 就 会 被 限制 为 每 个 时 钟 周 期 只 能 有 一 条 写 寄存 器 结果 的 
指令 。 最 后 ， 寄 存 器 文件 和 retirement 流水 级 也 必须 有 足够 的 带宽 ， 人 全 
期 内 的 多 条 指令 。 


3. 4.11 处 理 复杂 ISA 


目前 为 止 ， 我 们 都 假定 的 是 一 个 简单 的 RISC 指令 集 。 不 过 ,复杂 指令 集 也 同样 可 以 利用 乱 
序 执行 和 推测 执行 的 优势 ，x86 架构 的 奔腾 亚 和 奔腾 4 (NetBurst) 微 结构 已 经 证 明了 这 一 点 。 和 
之 前 一 样 ， 需 要 多 个 时 钟 周 期 的 复杂 指令 也 必须 以 微 指令 方式 执行 而 不 是 直接 在 硬件 中 执行 。 并 
且 ， 在 支持 微 指令 方式 时 不 能 影响 最 频繁 执行 的 那 部 分 指令 集 核心 指令 (类 RISC 指令 )。 

一 个 可 行 的 实现 技巧 是 使 用 那 部 分 核心 的 类 RISC 指令 直接 作为 微 指令 来 执行 其 他 复杂 指 
令 。 在 奔腾 五 和 奔腾 4 微 结构 中 ，x86 指令 被 划分 为 三 类 : 第 一 类 是 类 RISC 指令 ， 只 有 一 条 微 
操作 (uop)， 可 以 在 一 个 时 钟 周 期 里 执行 ; 第 二 类 是 简单 指令 ， 可 以 被 翻译 为 最 多 4 条 微 操 
作 ; 第 三 类 是 复杂 指令 ,需要 翻译 为 4 条 以 上 的 微 操 作 。 译 码 之 后 微 操作 立即 被 送 到 微 操作 队 
列 。 需 要 翻译 为 最 多 4 条 微 操 作 的 指令 可 以 通过 译 码 器 即时 翻译 。 那 些 需 要 被 翻译 为 多 于 4 条 
微 操 作 的 指令 则 需要 跳 转 到 一 段 微 代码 序列 中 ， 这 段 微 代码 序列 存储 在 指令 译 码 器 可 访问 的 微 
存储 中 。 这 种 结构 下 的 前 端 需要 做 轻微 修改 ， 如 图 3-30 所 示 。 

作为 ISA 核心 部 分 的 类 RISC 指令 可 以 一 对 一 地 映射 到 微 操 作 上 ， 执 行 速度 很 快 ， 不 会 影 
响 译 码 的 时 间 。 类 RISC 指令 可 以 在 一 拍 内 完成 译 码 ， 同 样 ， 需 要 翻译 成 2 ~4 条 微 操作 的 简单 
指令 也 可 以 在 一 拍 内 完成 译 码 。 而 其 他 复杂 指令 的 译 码 开销 更 大 ， 因 为 它们 需要 从 微 指令 存储 
中 执行 ， 不 过 这 些 开 销 可 以 通过 较 长 的 微 操作 序列 进行 分 扒 。 由 于 这 些 复杂 指令 非常 少 ,它们 
对 性 能 几乎 没有 影响 。 
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图 3-30 复杂 ISA 的 前 端 


复杂 指令 集中 ，Lfetch 阶段 不 再 总 是 一 次 取 整 条 指令 ， 因 为 指令 是 变 长 的 。 一 条 指令 可 能 
跨越 两 条 以 上 的 [cache 行 边 界 ， 从 而 在 取 指 令 流 水 线 中 产生 空 泡 。 分 支 或 者 跳 转 指令 也 可 能 
重 定向 执行 到 代码 中 的 任意 字 节 处 。 此 外 ， 下 一 条 指令 的 地 址 (下 一 个 PC) 计算 也 不 是 那么 
容易 确定 。 为 了 解决 上 述 问题 ， 我 们 在 I-fetch 阶段 (如 图 3-30 所 示 ，I-fetch 阶段 从 I-cache 中 
取 指 ) 之 前 增加 一 个 计算 下 一 个 PC 的 流水 级 。 这 个 新 的 流水 级 基于 当前 PC 值 、 当 前 指令 长 
度 和 BPB、BTB 的 内 容 预 测 下 一 条 指令 地 址 。PC 寄存 器 现在 指向 内 存 中 的 一 个 字 节 或 者 工 
cache 行 中 的 一 个 字 节 ，PC 地 址 对 应 的 是 内 存 地 址 或 者 下 一 条 指令 首 字 节 在 cache 中 的 物理 位 
置 。 译 码 单 元 处 理 来 自 下 Q 队列 的 指令 字 节 ， 然 后 尽 可 能 快 地 生成 对 应 的 微 操 作 。 译 码 逻 辑 必 
须 对 来 自 IFQ 的 指令 进行 对 齐 ， 并 且 在 一 个 时 钟 周 期 内 完成 译 码 。 之 后 ， 译 码 后 的 微 操 作 被 移 
人 微 操作 队列 。 

相 比 于 RISC 流水 线 ， 上 述 方案 中 的 流水 线 在 某 种 程度 上 被 拉 长 了 ， 当 分 支 预测 错误 时 ， 
它 浪费 的 周期 数 比 RISC 处 理 器 要 大 。 在 超标 量 体 系 结构 中 ， 每 个 周期 要 求 读 取 多 条 连续 的 指 
令 ，ISA 的 复杂 性 加 剧 了 取 指 硬件 的 复杂 性 ， 特 别 是 动态 指令 序列 中 含有 分 支 和 跳 转 指令 时 ， 
不 过 trace cache 机 制 可 以 解决 大 部 分 的 问题 。 


3.5 超 长 指令 字 微 结构 


动态 调度 流水 线 有 很 多 优点 ， 但 是 也 有 一 些 缺 点 ， 这 些 缺 点 限制 了 我 们 难以 获得 更 宽 的 分 
发 带宽 。 由 于 动态 微 结构 试图 每 周期 分 发 更 多 的 指令 ， 因 此 硬件 结构 也 变 得 更 加 复杂 、 速 度 更 
慢 ， 也 更 耗 电 。 从 某 种 程度 上 讲 ， 乱 序 执行 结构 是 一 个 极端 ， 因 为 所 有 的 决策 都 是 硬件 在 执行 
时 动态 做 出 的 。 

我 们 将 会 在 本 部 分 介绍 另 一 个 极端 情况 : 所 有 决策 (包括 取 指 、 分 发 、 调 度 ) 所 用 的 微 


100 第 3 草 


结构 都 在 编译 时 静态 实现 的 。 


3. 5. 1 动态 和 静态 技术 


大 多 数 动态 乱 序 执行 微 结构 中 采用 的 执行 技术 都 可 以 在 编译 器 中 以 某 种 方式 实现 ， 主 要 的 
区 别 在 于 : (1) 相 比 硬件 执行 时 编译 器 获得 的 可 靠 信息 更 少 ; (2) 编译 器 具有 一 些 硬 件 没 有 
的 代码 高 级 视图 。 

在 动态 乱 序 执行 机 器 中 ， 程 序 员 强 制 代 码 以 数据 流 方式 进行 乱 序 调度 ， 而 不 是 按照 线程 序 
顺序 执行 。 指 令 人 允许 相互 跳 过 ， 甚 至 当 某 些 指令 由 于 操作 数 没准 备 好 而 被 阻塞 时 ， 线 程序 中 后 
面 的 指令 也 可 以 开始 执行 。 这 种 情况 下 必须 解决 数据 冲突 和 控制 冲突 (条件 分 支 和 异常 )， 而 
解决 方法 包括 动态 寄存 器 重 命名 、 动 态 内 存 歧义 消除 、 分 支 预测 、 基 于 重 排序 缓冲 区 和 回 退 机 
制 的 推测 执行 机 制 等 。 

在 静态 机 器 中 ， 编 译 器 首先 根据 程序 员 的 意图 按 序 编译 源 代码 ， 然 后 编译 器 试图 对 代码 进 
行 适当 移动 以 提高 性 能 。 由 于 对 指令 的 执行 顺序 进行 了 重新 组 织 ， 这 种 代码 移动 实际 上 是 另 一 
种 乱 序 执行 指令 调度 方式 。 代 码 移动 可 以 是 局 部 的 〈 例 如 ， 原 始 Tomasulo 算法 只 在 每 个 基本 
块 内 移动 ) 或 者 是 全 局 的 〈 例 如 ， 推 测 执行 可 以 路 越 基本 块 ) 。 全 局 调度 通常 根据 调度 是 否 适 
用 于 循环 结构 划分 为 循环 调度 和 非 循环 调度 。 循 环 调度 技术 包括 循环 展开 和 软件 流水 。 动 态 体 
系 结构 也 可 以 采用 循环 展开 ， 它 通过 分 支 预测 和 在 重 排 序 缓冲 区 调度 循环 结构 中 不 同 迭 代 的 指 
令 来 实现 。 另 一 方面 ， 软 件 流水 只 用 于 静态 调度 ， 因 为 它 对 代码 结构 做 了 特定 假设 。 非 循环 调 
度 应 用 于 非 循 环 代码 ， 例 如 踪迹 调度 。 在 踪迹 调度 中 ， 编 译 器 首先 基于 静态 分 支 预测 的 最 可 能 
的 程序 trace 进行 指令 发 射 。 之 后 ， 编 译 器 依次 根据 所 有 其 他 可 能 的 trace 发 射 指令 ,并且 使 用 
补偿 代码 消除 每 个 trace 中 可 能 产生 的 副作用 。 在 动态 推测 执行 机 器 中 ， 类 似 的 方式 可 以 通过 
预测 分 支 执行 相应 的 trace， 当 碰 到 分 支 预测 错误 时 进行 回 退 这 样 的 机 制 来 完成 。 

对 于 项 态 分 支 预测 ， 编 译 器 利用 所 有 能 够 收集 到 的 信息 来 判断 每 次 分 支 的 方向 ， 这 一 工作 
通过 剖析 代码 来 实现 。 获 得 的 信息 之 后 通过 附加 到 分 支 操作 码 上 的 一 个 提示 位 传递 给 硬件 。 编 
译 器 也 可 以 对 寄存 器 进行 重 命 名 ， 但 是 它 只 能 对 结构 寄存 器 重 命名 ， 这 类 寄存 器 的 数量 受到 
ISA 的 限制 。 由 于 内 存 地 址 在 编译 时 是 未 知 的， 静态 内 存 层 义 消除 很 难 实现 。 此 外 将 load 指令 
移 到 不 同 地 址 寄存 器 的 store 指令 之 前 也 是 非常 危险 的 ， 因 为 编译 时 未 获知 寄存 器 的 值 。 与 动 
态 体 系 结构 类 似 ， 当 我 们 推测 将 load 指令 移 至 store 指令 之 前 时 ， 需 要 有 一 些 特殊 机 制 保障 ， 
当 动 态 检测 到 相关 〈 或 冲突 ) 时 ， 可 以 用 补丁 代码 进行 恢复 。 

最 后 ， 必 须 重 视 异 常 模型 。 动 态 体系 结构 中 ， 可 以 通过 回 退 运行 机 制 处 理 检测 到 的 异常 。 
而 在 静态 体系 结构 中 ， 运 行 基本 块 边界 外 的 指令 可 能 导致 不 应 出 现 的 异常 。 我 们 需要 特定 的 机 
制 可 以 保证 只 处 理想 要 的 异常 而 忽视 掉 任何 不 应 出 现 的 异常 。 当 不 应 出 现 的 异常 出 现时 ， 必 须 
部 署 诸如 补丁 代码 这 样 的 恢复 机 制 来 取消 不 应 出 现 的 异常 。 

在 LIWZVLIW 体系 结构 中 ， 从 开始 取 指 到 指令 运行 结束 ， 编 译 器 处 理 指令 执行 中 的 所 有 步 、 
又 。 它 可 以 最 小 化 硬件 复杂 度 和 功 耗 ， 给 超标 量 体 系 结构 提供 很 大 的 取 指 和 分 发 带宽 ， 提 供 动 
态 调度 机 器 所 无 法 想象 的 优势 。 


3. 5.2 VLIW 体系 结构 


超 长 指令 字 适 用 于 静态 调度 微 架 构 ， 它 的 每 条 长 指令 包含 几 个 叫 作 op 的 MIPS 命令 。 程序 
计数 器 指向 一 条 长 指令 ， 一 次 取出 长 指令 中 的 所 有 op。 这 些 op 随后 被 译 码 、 执 行 、 写 回 。 由 
于 每 个 op 操作 作用 于 不 同 的 流水 线 ， 因 此 其 编码 可 能 不 同 ， 并 且 可 以 针对 每 条 特定 流水 线 进 
行 优化 。 编 译 器 解决 了 所 有 的 冲突 ， 它 通过 在 相关 的 源 〈 父 ) 指令 和 目的 ( 子 ) 指令 之 间 插 
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入 足够 多 的 指令 (执行 时 对 应 很 多 个 时 钟 周期 ) 解决 了 寄存 器 RAW 冲突 ， 通 过 重 命名 寄存 器 
解决 了 WAW 和 WAR 冲突 ， 通 过 合适 的 代码 调度 避免 了 分 支 和 跳 转 指令 导致 的 结构 和 控制 冲 
突 ， 通 过 添加 补丁 代码 解决 了 异常 和 内 存 数据 访问 导致 的 冲突 。 

图 3-31 给 出 了 一 种 带 有 5 个 op 槽 的 VLIW 机 器 : 两 个 load/store 槽 、 两 个 浮 点 槽 、 一 个 整 
型 和 分 支 槽 。 每 一 个 op 槽 可 能 是 16 ~32 位 ， 整 个 长 指令 长 度 为 80 ~ 160 位 。 


po: [ER | Venopa TFT | FPop 





一 图 3-31 -五 路 VEIW- 机 器 


这 种 微 结 构 除 了 用 于 激活 执行 流水 级 的 控制 点 之 外 ， 只 需要 非常 少 的 硬件 控制 迎 辑 ， 尤 其 
是 不 需要 冲突 检测 单元 。 前 递 技术 有 一 定 作 用 ， 但 不 是 必要 的 。 长 指令 在 取 指 、 译 码 和 执行 
时 ， 不 存在 任何 数据 冲突 导致 的 阻塞 。 如 果 没 有 前 递 机 制 ， 那 么 相关 指令 在 其 父 指 令 还 没有 完 
成 流水 线 中 写 回 阶段 之 前 不 能 进行 静态 调度 。 如 果 支 持 寄存 器 前 递 机 制 ， 在 值 写 人 寄存 器 的 同 
时 ， 译 码 阶段 的 操作 数 就 可 用 了 ,因此 ， 相 关 指 令 在 其 父 指令 进入 了 写 回 阶段 时 就 可 以 进行 静 
态 调度 。 而 如 果 支 持 完全 前 递 (full forwarding) 机 制 ， 那 么 指令 只 要 在 其 父 指令 的 结果 出 来 时 
就 可 以 静态 调度 。 

表 3-18 给 出 了 图 3-31 所 示 架 构 在 不 同 前 递 假 设 下 的 操作 时 延 ， 编 译 器 在 优化 时 只 需要 知 
道 这 些 时 延 即 可 。 更 多 的 前 递 意味 着 更 少 的 操作 时 延 ， 因 此 可 以 从 给 定 指令 级 并 行 度 的 负载 中 
获得 更 紧凑 的 代码 和 更 快 的 加 速 比 。 


表 3-18 不 同 前 递 假 设 下 的 操作 时 延 


无 前 递 支持 支持 寄存 器 前 着 支持 完全 前 弟 
3 














Jnteger 2 1 
4 3 
0 0 


因为 每 个 译 码 器 专门 用 于 特定 指令 类 ， 所 以 译 码 器 可 以 很 简化 ， 速 度 更 快 。 此 外 ， 不 同位 
置 op 槽 的 格式 〈 包 括 大 小 ) 也 可 以 不 同 。 在 这 举例 的 机 器 中 ， 分 支 被 延迟 两 条 指令 来 避免 刷 
流水 线 。 这 是 从 硬件 角度 来 看 最 简单 的 解决 方案 。 

为 了 提高 效率 ， 这 种 简单 的 硬件 结构 需要 有 效 的 编译 器 支持 ， 将 op 打包 为 长 指令 ,使 得 
它们 可 以 在 没有 硬件 控制 的 情况 下 进行 取 指 、 译 码 、 分 发 和 执行 。 我 们 将 在 本 节 通 过 对 下 面 的 
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代码 例子 进行 详细 分 析 来 阐述 编译 算法 。 
FOR (全 去 T0005 和 主 5 07F 3 =-=1) 
i] 三 汪 斑 ] 8B 
上 述 代码 编译 成 如 下 指令 序列 : 
Loop: L.D FO, 0(R1) 
RDD .D F4, FO, F2 
5% 和 9 F4, 0(R1) 
SUBI R1,R1 ,#8 
BNE R1,R2, Loop 


对 于 VLIW 体系 结构 来 说 ， 局 部 静态 调度 是 不 够 的 ， 需 要 利用 全 局 调度 来 挖 据 指令 级 并 
行 。 全 局 调度 可 以 是 循环 的 或 者 非 循环 的 ， 为 了 更 好 地 阐述 VLIW 中 的 编译 技术 ， 我 们 从 循环 
调度 中 的 循环 展开 技术 开始 。 


3.5.3 循环 展开 


3.3.5 节 介 绍 了 循环 展开 技术 ， 这 里 的 循环 展开 主要 包括 : 展开 循环 ， 移 除 分 支 指 令 ， 调 
整 内 存 偏 移 ， 重 命名 寄存 器 ， 然 后 重组 代码 以 便 优 化 VLIW 调度 。 
假设 上 面 例子 中 的 VLIW 程序 支持 完全 前 递 机 制 ， 表 3-19 给 出 了 循环 展开 7 次 的 情况 。 


表 3-19 循环 展开 7 次 后 的 VLIW 程序 





ADD. D F20, ADD. D F24， 
Fi8, F2 F22, FE2 





ADD. D F28, 
F26, F2 











每 条 超 长 指令 包含 5 个 op， 对 应 图 3-31 中 的 5 条 流水 线 。 根 据 op 的 操作 码 将 op 放置 在 每 
个 指令 槽 。 指 令 排 布 时 必须 考虑 寄存 器 操作 数 的 操作 时 延 。 例 如 ， 在 load 指令 和 相关 的 add 指 
令 之 间 必 须 插 入 一 条 长 指令 ,在 add 指令 和 相关 的 store 指令 之 间 必 须 插 入 两 条 长 指令 。 因 为 
subtract 指令 是 零 延迟 ;分 支 指令 可 以 在 subtract 指令 之 后 立即 调度 。 在 所 有 情况 下 ， 分支 指令 
将 延迟 两 个 时 钟 周期 以 避免 刷 流水 线 。 

该 VLIW 程序 展现 了 循环 展开 的 一 些 缺 点 。 首 先 ， 由 于 循环 体 被 重复 执行 多 次 ， 代 码 会 显 
著 膨 胀 。 第 二 ， 由 于 op 调度 时 必须 避免 寄存 器 上 的 数据 冲突 ， 因 此 导致 大 量 的 发 射 权 被 浪费 
(填充 NOOP 指令 ) 。 第 三 ， 寄 存 器 压力 太 大 ， 结 构 寄 存 器 的 总 数 限 制 了 循环 展开 的 次 数 。 
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3.5.4 软件 流水 


软件 流水 技术 会 对 原始 循环 不 同 迭 代 中 的 指令 进行 重新 组 织 ， 以 便 重组 后 指令 可 以 在 新 的 
流水 循环 的 一 次 迭代 中 执行 。 为 了 阅 述 基于 VLIW 背景 下 的 软件 流水 ， 以 如 下 核心 代码 作为 运 
行 实例 。 该 核心 代码 中 的 每 条 指令 将 被 编码 成 VLIW 指令 中 的 op， 将 其 分 别 标记 为 01， 
02，03 : 


Loop: LL.D FO, 0(R1) O1 
RDD.D F4, FO, F2 O2 
S..D F4,- 0{R1) O03 


表 3-20 给 出 了 原始 循环 中 7 次 迭代 的 流水 循环 是 怎么 调度 的 。 调 度 表 中 的 每 一 列 是 原始 
循环 中 的 一 次 迭代 ， 为 了 满足 每 个 op 时 延 的 要 求 ， 有 依赖 关系 的 op 之 间 都 用 足够 的 距离 
( 行 ) 分 隔 开 了 。 因 为 原始 循环 中 的 每 次 迭代 有 两 次 内 存 op 操作 (一 次 load 操作 和 一 次 store 
操作 ) ， 所 以 在 只 支持 两 个 访 存 操作 槽 的 VLIW 中， 不 可 能 在 一 个 时 钟 周 期 中 同时 调度 初始 循 
环 中 的 一 个 以 上 的 迭代。 这 是 一 个 物理 限制 ， 因 为 每 个 模 不 可 能 超过 百分之百 利用 。 表 中 的 每 
一 行 对 应 最 终 VLIW 程序 中 每 条 VLIW 指令 的 一 些 op 操作 。 注 意 INST1 ~5 是 软件 流水 的 前 序 
部 分 ; INST6 ~7 是 流水 循环 中 的 两 次 迭代 (INST6 是 循环 的 核心 代码 ); 最 后 INST8 ~ 12 组 成 
收尾 部 分 。 这 里 面 ， 核 心 代码 (INST6) 是 流水 循环 的 主体 ， 它 的 每 个 op 操作 将 放置 到 VLIW 
的 一 个 指令 槽 中 。 

表 3-20 基于 软件 流水 的 调度 表 


ITE1 ITE3 ITE4 ITE6 ITE7 


INST2 O1 
到 


| Es 
INST6 03 02 
INST7 一 


INST8 
INST9 


INST10 
INST11 
INST12 


每 个 核心 代码 的 迭代 都 由 一 条 VLIW 指令 执行 。 根 据 调 度 ， 核 心 代码 中 每 条 VLIW 指令 的 
store 指令 比 load 指令 晚 5 个 迭代 。 因 此 ，store 指令 的 地 址 偏 移 必 须 进行 调整 。 表 3-21 给 出 了 
核心 代码 的 运行 结果 。 
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表 3-21 软件 流水 的 VLIW 核心 代码 
oo IT 
Dm on 


在 表 3-21 的 核心 代码 中 ,忽略 了 循环 控制 op 例如， 延迟 分 支 和 地 址 寄存 器 的 更 新 ) ， 这 
些 操 作 一 般 分 配 到 整 型 /分 支 模 ， 这 样 做 是 为 了 简化 例子 。 注 意 这 里 的 核心 代码 非常 短 (一 条 
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指令 )， 而 实际 (复杂 ) 情况 是 ,核心 代码 可 能 需要 三 条 以 上 的 op 操作 以 及 三 条 以 上 的 指令 ， 
以 便 使 整 型 /分 支流 水 线 中 有 足够 的 操作 槽 用 于 调度 循环 控制 指令 。 

使 用 旋转 寄存 器 解决 WAR 冲突 

我 们 已 经 介绍 了 怎样 通过 调整 位 置 解决 寄存 器 中 的 RAW 冲突 和 所 有 内 存 中 的 冲突 。WAW 
冲突 不 存在 ， 因 为 目的 寄存 器 是 按 顺 序 更 新 的 ， 并 且 每 条 指令 的 op 操作 按时 钟 级 同步 。 如 果 
没有 异步 事件 中 断 调度 ，WAR 冲突 也 可 以 避免 。 如 果 没有 事件 扰乱 表 3-20 中 按时 钟 周期 顺序 
的 调度 ， 那 么 即使 相同 寄存 器 的 多 个 值 在 同时 计算 ， 所 有 寄存 器 的 值 也 都 能 立即 获得 并 且 从 源 
指令 前 递 到 目的 指令 。 

例如 ， 表 3-21 中 FPOpl 槽 中 的 ADD. D 指令 更 新 F4 寄存 器 后 ， 该 寄存 器 的 值 必须 作为 三 
个 时 钟 周期 后 的 store 指令 的 输入 操作 数 。 每 个 时 钟 周期 都 会 启动 一 条 修改 F4 寄存 器 值 的 新 
ADD. 卫 指令， 这样 F4 寄存 内 同时 有 多 个 值 在 计算 。 不管 怎样 ， 只 要 处 理 器 没有 停 下 来 ，F4 寄 
存 器 的 值 会 被 立刻 从 浮 点 流水 线 前 递 到 访 存 流水 线 (从 add 操作 到 store 操作 ) 。 然 而 ， 如 果 因 
为 某 个 原因 ， 处 理 器 在 这 两 个 op 操作 之 间 停 下 来 〈 例 如 ， 碰 到 cache miss 或 者 异常 ) ， 那 么 F4 
寄存 器 的 值 可 能 在 store 操作 之 前 被 随后 的 add 操作 更 新 ,并且 可 能 跟着 发 生 WAR 冲突 。 青 
者 ， 一 个 寄存 器 的 值 一 般 可 以 在 不 同时 钟 周期 作为 两 个 不 同 可 调度 op 操作 的 输入 。 这 种 情况 
下 ， 为 了 避免 WAR 冲突 ， 这 两 个 op 操作 都 必须 以 最 坏 情况 下 的 时 延 来 调度 。 寄 存 器 重 命名 可 
以 帮助 避免 这 些 冲 突 ， 并 有 助 于 生成 最 有 可 能 的 调度 。 

在 VLIW 体系 结构 中 ， 旋 转 寄 存 器 是 一 种 解决 WAR 冲突 的 常用 硬件 方案 。 旋 转 寄 存 器 堆 
是 一 个 特殊 的 寄存 器 堆 ， 它 在 软件 流水 循环 中 自动 将 结构 寄存 器 重 命名 为 物理 寄存 器 。 

图 3-32- 从 硬件 层 说 明了 旋转 寄存 器 的 概念 * 循环 的 每 次 迭代 时 ， 旋 转 寄存 器 i( RRi) 会 被 
映射 为 不 同 的 物理 寄存 器 j( Pi)。 从 旋转 寄存 器 到 物理 寄存 器 号 的 映射 由 旋转 基 址 寄存 器 
(RRB) 的 内 容 控制 。 每 当 控制 循环 的 分 支 指令 执行 时 ，RRB 就 加 1。RRB 寄存 器 加 上 RR 号 ， 
再 与 寄存 器 堆 大 小 求 模 ， 这 样 就 可 以 获得 ISA 访问 的 旋转 寄存 器 所 对 应 的 物理 寄存 器 号 。 
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RRB| 


图 3-32 旋转 寄存 器 


旋转 寄存 器 堆 在 软件 流水 循环 阶段 自动 解决 寄存 器 WAR 冲突 。 保 存 常 量 的 寄存 器 被 分 配 
到 常规 的 整 型 或 者 浮 点 寄存 器 。 保 存 循环 迭代 时 访问 变量 的 寄存 器 被 分 配给 旋转 寄存 器 。 回 到 
刚才 的 例子 ，F2 寄存 器 保存 常量 ，F0 和 F4 寄存 器 则 分 配给 旋转 寄存 器 。 例 如 ，03 行将 RR0 
寄存 器 分 配给 store 指令 的 源 寄存 器 。 在 第 0 次 迭代 时 ，RR0 寄存 器 映射 到 P0 寄存 器 。RR0 寄 
存 器 必须 保存 三 个 迭代 之 前 由 add 指令 (02) 生成 的 用 于 store 的 值 。 因 此 ， 编 译 器 将 02 的 目 
的 寄存 器 分 配给 RR3 ，RR3 寄存 器 在 第 0 次 迭代 时 被 映射 为 PB， 进 而 在 第 3 次 迭代 时 (三 个 
时 钟 周 期 之 后 ) ，RR0 寄存 器 被 映射 为 P3。 然 后 编译 器 将 02 的 第 二 个 源 寄存 器 分 配给 RR4， 
RR4 在 第 0 次 迭代 时 被 映射 为 P4。 第 二 个 源 寄存 器 是 load 指令 的 运行 结果 (01) ， 它 分 配给 
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RR6 ，RR6 在 第 0 次 迭代 时 被 映射 为 PB6， 以 便 两 次 迭代 之 后 ， 在 时 钟 周期 2 时 ，RR4 能 够 映射 
到 P6， 并 且 02 行 的 指令 能 够 读 取 到 两 个 迭代 之 前 的 01 行 指令 的 运行 结果 。 图 3-32 显示 了 循 
环 的 4 个 迭代 (迭代 0、1、2、3) 中 4 次 连续 的 旋转 寄存 器 到 物理 寄存 器 的 映射 。 在 迭代 0 
时 ，RRi 映射 到 Pi。 在 迭代 1 时 ，RRi 映射 到 Pi, j=(i+1) mod 16。 

表 3-22 给 出 了 VLIW 核心 代码 的 结果 。 循 环 核心 代码 可 以 在 一 个 时 钟 周 期 执行 ， 并 且 解 决 
了 寄存 器 和 内 存 值 的 所 有 冲突 。 前 序 和 收尾 部 分 的 程序 变 得 更 复杂 ， 但 是 它们 只 需要 执行 
-次 。 

表 3-22 支持 旋转 寄存 器 的 软件 流水 VLIW 核心 代码 
Gam] Menon | Men | Fon | Fo | mo 
| Dre oc [SD crl), ROAD Ri | Noop 


Op 槽 冲突 

可 获得 的 slot 横 数 量 限制 了 指令 槽 上 的 op 操作 的 分 配 。 假 设 VLIW 机 器 仅仅 含有 一 个 内 存 
op 槽 位 和 一 个 浮 点 op 槽 位 。 因 为 loop 循环 包含 两 次 内 存 op 操作 ， 不 可 能 在 一 个 时 钟 周期 中 调 
度 多 个 loop 迭代 。 表 3-23 展示 了 调度 过 程 ， 其 中 INST1 ~4 构成 程序 的 前 序 部 分 ，INST9 ~ 12 
构成 程序 的 收尾 部 分 ，INST5 ~6 构成 了 循环 核心 。 调 整 完 内 存 地 址 偏 移 并 且 完 成 旋转 寄存 器 
赋值 之 后 的 VLIW 程序 ， 如 表 3-24 所 示 。 为 了 简化 起 见 ， 再 次 忽略 loop 控制 op 操作 。 


表 3-23 带 slot 限制 的 软件 流水 调度 表 


ITE1 ITE2 ITE3 ITE4 
INSTI ol 
INST2 一 
INST3 02 


mm = TN 


INSTS 一 
INST6 03 
MT tt tees Mm te 


1 ee pe eh ee tpi 
i i ri 


ET 
INST11 Rs 
INST12 03 


表 3-24 仅 有 一 个 内 存单 元 、 支 持 旋 转 寄存 器 的 VLIW 核心 代码 


oo ET 
AD RE 
一 般 而 言 ， 每 种 指令 类 型 都 对 应 有 限 个 可 分 配 的 操作 槽 数量 。 今 天 ; 表示 类 型 指令 的 操作 


槽 数量 ，N, 表示 loop 循环 体 中 i 类 型 指令 的 数量 。 由 于 所 有 指令 类 型 产生 的 操作 槽 冲突 ， 
VLIW 指令 数量 的 最 小 值 可 以 根据 下 面 的 公式 进行 计算 : 


wax [| 
i K, 
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跨 循环 依赖 
除了 可 用 op 槽 数量 的 影响 外 ， 指 令 级 并 行 (ILP) 程度 也 决定 了 VLIW 核心 代码 的 长 度 。 
软件 流水 的 目标 是 降低 每 个 循环 和 帮 代 内 的 相关 性 〈 依 赖 ) ， 但 是 也 受 限于 路 循环 的 相关 。 跨 循 
环 依赖 是 在 一 个 循环 不 同 近 代 的 指令 之 间 的 一 种 相关 性 ， 这 种 相关 性 非常 普遍 (例如 在 递归 
中 )， 并 且 会 限制 循环 中 指令 级 并 行 (ILP) 的 程度 。 
考虑 如 下 这 个 具有 跨 循环 依赖 的 代码 : 
for (i = 0; i < N; i++) 
{A[i+2] = A[i]+1; 
B[i] = A[i+2]+1;} 


NA 


第 一 条 语句 中 A[i] 的 相关 有 两 个 迭代 的 距离 ， 相 应 的 MIPS 代码 (假设 是 单 精 度 浮 点 格 
式 ) 及 其 数据 依赖 图 (Data Dependency Graph, DDG) 如 图 3-33 所 示 。 


Loop : L.S FO, 0(R2) Ol 
ADD .SF3.7, F077 1 02 
ADD.S FA4A, F3, Fl1 03 
S.S F3, 16(R2) O4 
S.S F4, 0(R3) 05 


ADDI R2, R2, 8 
ADDI R3, R3, 8 
BNE R2, R4, Loop 





a) 


图 3-33 ”路 循环 迭代 相关 的 代码 〈a) 及 其 数据 依赖 图 (b) 


DDG 图 中 的 每 个 节点 是 循环 体 中 的 一 条 指令 ， 每 条 边 代表 两 条 指令 (或 者 NLIW 中 的 op 
操作 ) 之 间 的 相关 性 。 边 用 一 个 数 对 〈diff，min) 进行 标记 ， 其 中 ditt 代表 两 条 指令 之 间 的 选 
代数 ，min 代表 为 了 避免 RAW 冲突 两 条 指令 之 间 的 最 小 周期 数 。 跨 循环 依赖 导致 了 图 中 出 现 
环 ，DDG- 图 中 的 环 限制 了 loop 过 代 调度 的 速率 。 例 如 ， 图 3-33 中 的 环 跨越 两 次 迭代 ， 在 这 个 
环 中 为 了 避免 RAW 冲突 所 需 的 最 小 时 钟 周期 是 6。 因 此 ， 如 果 调 度 速度 快 于 每 3 个 周期 调度 
一 次 循环 迭代 ， 将 导致 不 安全 结果 出 现 。 

每 3 个 时 钟 周期 调度 一 个 迭代 的 过 程 如 表 3-25 所 示 。INST1 ~6 是 程序 的 前 序 部 分 ， 
INST13 ~ 15 是 程序 的 收尾 部 分 ，INST7 ~9 构成 了 流水 循环 的 核心 。 


表 3-25 图 3-33 中 的 循环 调度 








INSTI 
INST2 
INST3 
INST4 
INST5 
INST6 
INST7 
INST8 
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INSTI0 
INST11 
INST12 
INST13 
INST14 
INST15 





















根据 调度 表 将 op 操作 分 配给 指令 槽 之后， 再 修改 内 存 地 址 偏 移 ， 分 配 旋转 寄存 器 。 支 持 
两 个 内 存 槽 、 两 个 PP 槽 、 一 个 整 型 /分 支 槽 的 VLIW 核心 代码 如 表 3-26 所 示 。 


表 3-26 支持 旋转 宵 存 器 的 软件 流水 VLIW 核心 代码 







Integer/ Branch 
DBNE R2, R4, CLKI 
ADDI R2，R2 ， 操 







NOOP L.SF4, 0(R2) 二 本 -| 
NOOP NOOP 


S.S RRO, i D RR3, F4, 
S RR2, 0 
ss, oe) | ie, 


注意 ， ea ua5 0 因为 load 值 是 被 同一 个 迭代 
中 的 add 指令 使 用 的 。 因 此 ， 给 它 分 配 了 一 个 普通 的 FP 寄存 器 (F4 寄存 器 )。 最 后 ， 由 于 
VLIW 程序 包含 三 条 指令 ,我 们 在 表 3-26 遇 当 加 了 任 环 控制 op 操作 ， 这 类 op 在 整 型 /分 支流 水 
线 中 执行 。 分 支 (DBNE) 延迟 两 条 指令 ， 当 发 生 跳 转 时 ， 将 RRB 值 加 一 。 

软件 流水 算法 

要 实现 软件 流水 ， 编 译 器 必须 识别 循环 中 的 op 操作 ， 然 后 构造 DDG 图 。 图 中 的 每 一 个 节 
点 是 循环 体 中 的 一 个 op 操作 ， 每 条 边 反 映 两 个 op 操作 的 相关 性 ， 用 一 个 数 对 〈dif，min) 标 
记 ， 其 中 di 华 是 迭代 数量 ，min 是 两 个 相关 op 操作 之 间 想 要 避免 相关 所 需 的 最 小 时 钟 周期 数 。 

编译 器 必须 找 出 图 中 所 有 的 环 。 对 于 图 中 每 个 环 C,， 编 译 器 做 如 下 处 理 : 

。 通过 计算 环 C, 所 有 边 的 min 之 和 《〈 叫 作 MIN(C) ) ， 来 获得 环 所 需 的 最 小 时 钟 周期 数 ; 

。 通过 计算 环 C; 所 有 边 的 di 和 之 和 【〈 叫 作 DIFF(C,))， 来 获得 环 所 跨越 的 迭代 数 ; 

。 计算 工 (C) =MIN (C,)/DIFF(C,)， 向 上 取 整 。 

所 有 环 C, 对 应 的 所 有 工 (C,) 中 的 最 大 值 就 是 由 于 跨 循 环 依赖 造成 的 两 个 连续 迭代 之 间 
所 需 的 最 小 时 钟 周期 数 ( 表示 为 II ) 。 

然后 编译 器 还 必须 考虑 op 槽 的 冲突 ， 对 于 每 种 类 型 的 op 0.， 编 译 器 做 如 下 处 理 : 

。 计算 该 循环 每 个 迭代 中 类 型 0. 的 op 操作 的 数量 〈 叫 作 NUM(O4 ) ; 

。 根据 类 型 0; 对 应 的 op 槽 数 〈 记 为 SLOTS(O4) ) ， 计算 IO ) = NUM( 0i)/SLOTS( 0,), 

向 上 取 整 。 

所 有 op 操作 类 型 所 对 应 的 工 (0;) 中 的 最 大 值 就 是 由 于 op 权 冲 突 造成 的 两 个 连续 迭代 之 
间 所 需 的 最 小 时 钟 周期 数 (表示 为 全 )。 

两 个 连续 迭代 之 间 的 最 小 时 钟 周期 数 就 是 II 和 112 之 间 的 最 大 值 ， 我 们 把 这 个 值 叫 作 
MIMII。 

然后 ， 编 译 器 在 两 个 连续 迭代 之 间 基 于 一 个 固定 长 度 时 钟 周 期 ( 工 = MINI) 进行 软件 流 
水 循环 的 调度 ， 并 且 试 图 找 出 一 个 重复 的 计算 核心 。 如 果 没 有 找到 ， 则 用 工 +1 的 时 间 间 隔 重 
复 这 个 调度 过 程 ， 直 到 找到 重复 计算 核心 为 止 。 
















ADD. D RRI1 ， 


ADDI R3 ， 招 
RR2, Fl DB 
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一 旦 发 现 可 重复 的 核心 代码 调度 方式 ,编译 器 就 开始 产生 前 序 、 核 心 、 收 尾部 分 的 代码 。 
具体 步骤 包括 : 根据 调度 分 配 指 令 权 给 op 操作 ， 调 整地 址 偏 移 ， 将 旋转 寄存 器 的 值 赋 给 变量 
寄存 器 操作 数 等 。 


3.5.5 非 循环 VLIW 调度 


虽然 循环 结构 在 科学 和 工程 计算 中 占据 最 大 的 计算 量 ， 但 是 根据 Amdahl 定律 ， 要 想 获得 
好 的 整体 性 能 ， 其 他 代码 也 必须 高 效 执行 。 而 且 ， 循 环 调度 仅仅 是 当 循 环 体 中 没有 条 件 分 支 时 
才 起 作用 。 因 此 ,- 除了 处 理 loop 循环 ， 编 译 器 也 必须 处 理 包含 条 件 分 支 的 普通 代码 。 一 种 用 于 
这 类 代码 调度 的 技术 叫 作 trace 调度 ， 属 于 非 循环 调度 的 -种 。 

trace 调度 从 静态 分 支 预测 开始 。 通 过 分 析 代 码 ， 编 译 器 可 以 决定 哪些 分 支 是 可 以 静态 预 
测 的 ， 如 果 一 个 分 支 可 以 静态 预测 ， 那 么 trace 调度 就 有 效 。 

图 3-34a 展现 了 含有 条 件 分 支 的 简单 代码 例子 ,代码 中 (典型 的 “if-then-else” 结构) A、 
B、C、D 是 代码 块 。 如 果 分 支 测试 4 的 值 是 静态 可 预测 的 ， 编 译 器 首先 假设 将 从 最 可 能 的 路 径 
执行 。 


LW R4,0(R1) LW R4,0 (R1) LW R4,0(R1) 
ADDI R6,R4,1 ADDI R6,R4,1 LW’ R6,0(R2) 
/*block A*/ LW R6,0 (R2) BEQ RS5,R4,LAB]1 

BEQ R5,R4,LAB BEQ R5,R4,LAB1 LAB2:SW R6,0(R1) 
LW R6,0(R2) LNBDDSSWIROO(RID YY We 
/*block B*/ /*jump to 2nd trace*/ LAB]1 :ADDI R6,R4,1 
/*Block D empty*/ if prediction wrong*/ J LAB2 
DAB SW RN ORLY “WY dk 
/*Block C*/ LAB1:ADDI R6,R4,1 
SW J LAB2 


/*2nd trace 





b) c) 和 
图 3-34 含有 fthen-else 语句 的 代码 


假设 这 条 路 径 是 块 A， 然 后 是 块 B 和 块 C (分 支 没 执行 )。 编 译 器 先 将 这 个 trace 看 成 是 最 
可 能 执行 的 trace， 并 首先 进行 调度 ,就 好 像 没有 分 支 一样 。 编 译 器 通过 移动 代码 的 方式 来 避免 
数据 冲突 ， 但 是 忽略 分 支 产生 的 控制 冲突 。 在 执行 时 ， 一旦 知道 了 分 支 结 果 ， 就 可 以 确定 该 预 
测 是 否 是 正确 的 。 如 果 预 测 正确 ， 则 继续 执行 ,从 而 避免 了 分 支 引 起 的 控制 冲突 。 尽 管 如 此 ， 
编译 器 也 必须 考虑 分 支 预测 错误 的 情形 。 因 此 ;编译 器 必须 调度 另 一 个 trace (该 trace 执行 指 
令 块 D)。 此 外 ,编译 器 必须 向 第 二 个 trace 中 添加 一 些 补充 代码 。 补 充 代码 用 来 修复 更 新 块 B 
和 C 所 造成 的 影响 ， 因 为 该 更 新 可 能 影响 块 D 中 的 计算 (对 应 图 中 join) ， 也 还 用 来 修复 更 新 
块 B 和 D 所 造成 的 影响 ， 因 为 块 B 和 块 D 的 更 新 可 能 影响 块 C 的 结果 (对 应 图 中 split) 。 因 
此 ， 编 译 器 用 块 D 代码 加 上 补充 代码 ( split 和 join) 调度 第 二 个 trace， 第 二 个 trace 仅 当 分 支 
预测 错误 时 才 执 行 。 

如 果 分 支 结 果 的 静态 预测 是 可 靠 的 ，trace 调度 程序 大 多 数 时 候 只 运行 第 一 个 trace， 就 好 
像 没有 条 件 分 支 似 的 。 图 3-34a 中 的 每 个 独立 块 可 能 也 包含 一 些 条 件 分 支 指令 ， 这 意味 着 可 能 
生成 许多 trace。 

图 3-34b 展示 了 一 种 可 能 的 代码 ， 其 在 块 D 中 是 空 的 。 图 3-34c 展示 了 trace 调度 之 后 分 支 
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静态 预测 不 跳 转 时 的 代码 。 块 B 中 的 load 指令 在 第 一 个 trace 里 已 经 被 移 到 了 分 支 之 前 。 通 常 
来 讲 ， 将 store 指令 移 到 分 支 的 前 面 (也 在 split 前 ) 是 不 安全 的 也 是 不 必要 的 ( 因为 store 操作 
不 能 取消 ) ，store 指令 更 应 该 往 后 移 。 如 果 分 支 预测 错误 ， 执 行 第 二 个 trace 的 话 ， 因 为 块 D 是 
空 的 ， 第 二 个 trace 只 包含 一 些 补充 代码 (split 和 join)。 图 3-34d 展示 了 对 第 一 个 trace 进一步 
优化 后 的 代码 , 已 经 将 第 一 个 trace 中 的 ADDI 指令 移 除 ， 下 一 步 应 当 在 目标 机 器 上 调度 VLIW 
程序 。 如 果 静 态 分 支 预测 正确 ， 唯 一 运行 的 代码 是 两 条 load 指令 、 一 条 分 支 指令 和 一 条 store 
指令 。 优 点 之 一 是 两 条 load 指令 现在 可 以 并 行 发 射 。 

” 尽管 从 数据 流 的 观点 来 看 ， 图 3-34d 和 图 3-34b 的 运行 结果 一 样 ， 但 是 它们 对 应 的 异常 行 
为 可 能 是 不 同 的 。 前 移 的 load 指令 现在 是 推测 执行 的 ， 但 是 无 论 分 支 是 否 跳 转 ，load 总 是 在 第 
一 个 trace 中 执行 。 如 果 当 前 移 的 load 造成 一 次 异常 并 且 分 支 跳 转 成 功 ， 实 际 上 该 异常 是 不 应 
该 发 生 的 ， 此 时 需要 一 些 额 外 的 支持 来 处 理 这 种 异常 。 


3. 5.6 谓词 指令 

当 分 支 结构 是 倾向 性 并 且 静 态 高 度 可 预测 时 ，trace 调度 就 非常 有 效 ， 因 为 最 可 能 的 trace 
是 运行 时 间 最 多 的 一 个 。 然 而 ,一 些 条 件 分 支 很 难 静 态 预 测 或 者 没有 明显 倾向 性 。 对 于 这 些 分 
支 来 说 ， 分 支 trace 调度 表现 得 很 糟糕 ， 因 为 有 多 个 trace 会 被 频繁 执行 。 

为 了 高 效 执行 带 有 无 倾向 性 分 支 的 代码 ， 可 以 利用 VLIW 中 丰富 的 并 行 性 。 如 果 提 供 了 谓 
词 执行 ， 无 倾向 性 分 支 的 两 个 方向 都 可 以 并 行 执行 。 谓 词 指令 (或 者 叫 条 件 指令 ) 仅 当 存储 
在 谓词 寄存 器 中 的 谓词 为 真 时 才 执 行 ， 否则， 指令 或 者 指令 结果 就 被 丢掉 。 表 3-3 中 的 任何 指 
令 都 可 以 是 谓词 指令 。 例 如 ， 可 以 将 LW 的 两 个 有 条 件 指令 版 本 加 入 到 MIPS 指令 集 : 

CLWZ R1,0(R2),R3 /*Load Mem[0(R2)] into R1 if R3 is 0 

CLWNZ R1,0 (R2),R3 /*Load Mem[0(R2)] into R1 if R3 is not 0 
这 里 ，R3 是 谓词 寄存 器 ， 除 非 谓词 寄存 器 中 的 值 满足 条 件 ， 否 则 不 允许 条 件 指 令 修改 体系 结构 
的 状态 或 者 抛 出 异常 。 尽 管 谓 词 指令 的 长 度 和 格式 与 非 谓 词 指令 〈 需 要 增加 一 个 寄存 器 操作 数 ) 
非常 不 同 ， 但 是 在 VLIW 中 这 不 是 问题 ，VLIW 并 不 需要 每 种 op 类 型 都 遵守 统一 的 格式 。 条 件 指 
令 将 控制 相关 (不 利于 代码 移动 ) 转化 为 寄存 器 中 的 数据 相关 〈 编译 器 很 容易 处 理 这 种 相关 ) 。 

为 了 说 明 VLIW 中 谓词 指令 (条 件 指 令 ) 的 用 法 ， 再 考虑 图 3-35a 中 的 简单 例子 ,假设 
BEQ 无 法 静态 预测 或 者 分 支 无 倾向 性 。 图 3-35b 中 ， 分支 已 经 去 掉 ，load 指令 现在 成 了 一 个 条 
件 load 指令 。 图 3-35c 展示 了 代码 进一步 优化 后 的 版 本 ， 其 中 两 条 条 件 指令 可 以 并 行 执行 。 尽 
管 这 个 指令 序列 由 于 相关 无 法 进一步 优化 ， 但 是 分 支 的 移 除 还 是 给 编译 器 提供 了 更 多 的 机 会 进 
行 代码 排 布 。 









LW R4,0(R1) LW R4,0(R1) LW R4,0(R1) 
ADDI R6,R4,#1 ADDI R6,R4,#1 SUB R3,R5,R4 


BEQ R5,R4,LAB SUB R3,R5,R4 CADDIZ R6,R4,#1,R3 
LW R6,0(R2) CLWNZ R6,0(R2),R3 t CLWNZ R6,0(R2)7R3 
LAB: SW R6,0(R1) SW R6,0(R1) SW R6,0(R1) 
a) b ) c) 





图 3-35 谓词 指令 的 使 用 


一 般 而 言 ， 当 分 支 不 可 预测 且 被 分 支 所 对 应 的 基本 块 较 小 时 ,条 件 指令 就 非常 有 用 。 对 于 
VLIW 之 外 的 其 他 微 结构 ， 例 如 乱 序 执行 动态 处 理 器 ,谓词 指令 也 是 有 用 的 ， 它 可 以 用 来 避免 
小 基本 块 中 分 支 预测 错误 所 产生 的 较 高 开销 。 不 过 ; 谓词 指令 技术 会 增加 后 端 (尤其 是 调度 
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器 ) 的 复杂 性 。 某 些 ISA (例如 ，Intel 的 1A-64 架构 ) 中 ， 所 有 指令 都 是 谓词 指令 。 


3. 5.7 ”推测 内 存 歧义 消除 


分 支 指令 是 编译 器 进行 代码 移动 的 一 个 障碍 ， 此 外 ， 内 存 歧义 消除 是 另 一 个 障碍 。 也 就 是 
说 ， 如 果 一 条 load 指令 和 一 条 store 指令 在 编译 时 不 能 断定 它们 的 内 存 地 址 一 定 不 同 ， 那 么 这 
条 load 指令 就 不 能 移动 到 store 指令 之 前 。 然 而 ，store/load 指令 序列 的 内 存 地 址 大 多 数 时 候 都 
是 不 同 的。 因此 ， 编 译 器 可 以 试探 着 将 一 条 load 指令 移 到 store 指令 之 前 ， 即 使 这 两 个 地 址 在 
编译 时 还 无 法 确定 是 否 相 同 。 为 了 检测 地 址 冲突 ， 需 要 在 load 指令 的 原来 位 置 插入 一 条 特殊 指 
令 一 一 监护 指令 (guardian)。 监 护 指令 检测 是 否 有 store 指令 修改 了 之 前 推测 执行 load 指令 所 
访问 的 内 存 地 址 ， 如 果 有 ， 那 么 出 现 了 RAW 违例 ， 需 要 执行 对 应 的 修复 代码 。 

图 3-36a 中 ， 编 译 器 无 法 将 load 指令 移 到 store 之 前 ， 因 为 寄存 器 R2 和 R3 的 内 容 在 编译 
时 是 未 知 的。 图 中 的 了 1 和 卫 是 独立 不 相关 的 指令 。 在 图 3-36b 中 ，load 指令 和 一 条 依赖 load 
的 指令 被 推测 前 移 到 store 指令 之 前 。 这 里 的 代码 移动 可 能 导致 出 现 内 存 RAW 冲突 ， 因 此 必须 
在 运行 时 进行 验证 。 在 图 3-36c 中 ,在 load 指令 的 初始 位 置 加 入 了 一 条 监护 指令 (检测 指令 )， 
而 load 指令 则 被 标记 为 推测 的 (LW. a) 。 检 测 指令 动态 验证 load 指令 操作 的 内 存 位 置 有 没有 
被 store 指令 修改 ， 如 果 被 修改 过 ， 则 调用 repair 处 理 程序 进行 修复 。 为 了 检测 冲突 ， 推 测 的 
load 指令 会 将 它 访问 的 内 存 地 址 插入 一 个 短小 的 硬件 全 相 联 表 中 ， 然 后 后 续 的 每 条 store 指令 
, 会 查询 这 个 表 中 的 内 存 地址 ， 并 且 将 与 自身 匹配 的 地 址 从 中 移 除 。 检 测 指令 会 检查 load 指令 的 
地 址 是 否 仍然 在 这 个 内 存 表 中 ， 如 果 不 在 ， 则 调用 修复 处 理 程序 。 图 3-36c 中 ， 推 测 指令 
LW. a 将 地 址 0 (R2) 插头 到 硬件 表 中 ， 后 面 的 store 指令 SW 通过 地 址 0 (R3) 查询 硬件 表 ， 
如 果 地 址 在 表 中 ， 则 将 其 移 除 。 之 后 ， 指 令 CHECK. a 查询 硬件 表 ， 如 果 指 令 没 有 在 硬件 表 中 
找到 地 址 0 (R2) ，CHECK. a 指令 跳 到 修复 程序 ， 修 复 程序 将 非 推测 地 重新 执行 这 两 条 指令 
(LW 和 ADD)。 


还 二 LW R4,0(R2) LW.a R4,0(R2) 
SW R1,0(R3) RDD R5,R4,R4 ADD R5,R4,R4 
I2 Il Il 

LW R4,0(R2) SW R1,0(R3) SW R1,0(R3) 


ADD R5,R4,R4 I2 
CHECK.a 0(R2),repair 


cy 





图 3-36 使 用 监护 指令 消除 推测 内 存 歧义 


3.5.8 异常 


VLIW 体系 结构 不 擅长 处 理 诸如 cache miss 和 异常 这 样 的 动态 事件 。 当 某 个 op 操作 发 生 了 ， 
cache miss， 整 条 指令 都 必须 停止 ， 因 为 编译 器 产生 的 静态 调度 依赖 于 指令 每 步 有 序 地 执行 和 
在 相同 长 度 指 令 字 中 的 op 操作 按部就班 地 同步 执行 。 因 此 ， 当 出 现 异常 时 ， 整 条 流水 线 可 能 
被 完全 冻结 ， 就 像 在 静态 流水 线 中 见 到 的 一 样 。 通 过 冻结 整 条 流水 线 ， 可 以 保证 编译 器 所 要 的 
精确 调度 方式 保持 不 变 。 

在 VLIW 结构 中 ,不管 是 在 硬件 还 是 软件 层面 上 ， 异 常 都 更 难以 处 理 。 在 硬件 层级 中 ， 没 
有 像 动态 乱 序 执行 流水 线 那样 的 保存 在 重 排序 缓冲 区 中 的 历史 运行 记录 因此， 执行 过 程 无 法 
精确 回 深 到 错误 指令 处 。VLIW 体系 结构 的 主要 优点 就 是 硬件 相当 简单 。 在 软件 层级 ,为 了 优 
化 代码 的 执行 时 间 ， 编 译 器 会 推测 地 将 一 些 指令 提 到 条 件 分 支 前 面 。 对 于 循环 调度 来 说 这 不 是 
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个 问题 ， 因 为 所 有 在 编译 后 循环 (展开 后 循环 或 者 流水 循环 ) 中 执行 的 指令 也 同样 会 在 原始 
循环 (程序 员 本 意 的 循环 ) 中 执行 。 然 而 ， 对 于 全 局 的 非 循 环 调度 来 说 这 是 个 问题 ， 因 为 每 
个 trace 中 有 许多 指令 是 被 编译 器 推测 调度 执行 的 ， 在 运行 时 可 能 触发 一 些 不 应 出 现 的 异常 。 

通常 ， 有 些 异 常 〈 诸 如 算术 溢出 或 者 地 址 越界 等 ) 会 影响 用 户 程序 的 执行 ， 从 这 种 意义 
上 说 ， 它 们 对 用 户 是 可 见 的 。 而 其 他 异常 (例如 缺 页 ) 则 对 用 户 不 可 见 ， 它 们 是 透明 的 。 用 
户 不 可 见 异常 通常 没有 什么 副作用 ， 因 此 即使 这 种 异常 是 本 不 应 该 出 现 的， 也 可 以 直接 处 理 。 
然而 ， 用 户 可 见 异 常 就 不 同 了 ， 如 果 它 们 本 不 应 出 现 的 话 就 必须 进行 限制 。 
”VLIW 结构 中 ， 如 果 蜡 常 ( 即使 是 本 不 应 该 出 现 的 ) 对 用 户 不 可 见 ， 那 么 通常 会 直接 处 
理 ， 因 为 这 种 异常 要 么 是 确实 需要 的 ， 要 么 是 没有 副作用 的 。 然 而 , 像 被 编译 器 推测 移 到 分 支 
前 面 的 指令 所 产生 的 用 户 可 见 的 异常 ， 是 绝 不 能 直接 处 理 的 ， 除 非 推测 正确 。 例 如 ， 一 条 load 
指令 在 编译 的 时 候 被 移 到 了 条 件 分 支 前 面 ， 由 于 它 对 于 程序 的 正确 执行 没有 影响 ， 硬 件 可 以 并 
且 也 会 处 理 load 产生 的 缺 页 异常 。 然 而 ， 如 果 相 同 的 推测 执行 load 引起 一 次 终止 异常 ， 例 如 出 
现 地 址 未 对 齐 异常 或 者 非法 访问 异常 ， 那 么 这 种 异常 只 有 在 这 次 推测 执行 的 load 实际 上 也 应 当 
被 执行 时 才 会 被 处 理 。 

图 3-37a 中 给 出 了 来 自 图 3-35a 的 原始 代码 ，trace 调度 和 优化 后 的 代码 结果 显示 在 
图 3-37b 中 。 推测 的 load 指令 在 第 一 个 trace 时 被 移 到 分 支 前 面 可 能 触发 缺 页 异常 ， 这 不 会 影 
响 正确 性 ， 且 总 是 被 直接 处 理 。 然 而 ， 如 果 该 前 移 的 load 操作 触发 了 一 次 终止 异常 ， 并 且 分 支 
指令 跳 转 的 话 ， 那 么 程序 也 将 终止 运行 ， 这 显然 是 程序 员 所 不 期 望 的 结果 。 因 此 ， 如 果 我 们 忽 
略 用 户 可 见 的 异常 的 话 ， 那 么 程序 员 就 没 法 察觉 到 推测 代码 的 错误 。 不 幸 的 是 ,大 多 数 ISA 的 
异常 模型 都 不 允许 禁止 用 户 可 见 异 常 (包括 终止 异常 ) ， 并 且 禁 止 用 户 可见 异 常 的 做 法 无 法 避 
免 程序 员 写 出 错误 程序 。 在 禁止 用 户 可 见 异 常 的 情况 下 ， 程 序 执行 中 可 能 发 生 一 个 未 被 检测 到 
的 程序 错误 ， 这 个 错误 可 能 会 长 期 甚至 一 直 都 没有 被 检测 到 ， 直 到 程序 运行 崩溃 。 















LW R4,0(R1) LW R4,0(R1) LW R4,0(R1) LW R4,0(R1) 
ADDI R6,R4,1 LW R6,0(R2) SsLW R6,0 (R2) LW.s R6,0 (R2) 
BEQ R57;R4,LAB BEQ R5,R4,LAB1 BEQ RS5,R4,LAB1 BEQ R5,R4,LABL1 
LW R6,0 (R2) LAB2:SW R6,0(R1) LAB2:SW R6,0(R1) CHECK.s R6,repair 
EX NEU id "nn LAB2:SW R6,0(R1) 
全局 LAB1:ADDI R6,R4,1 LAB1:ADDI R6,R4,1 SB 
J LAB2 J LAB2 LAB1 :ADDI R6,R4,1 
J LAB2 


d) 








c) 





b) 


图 3-37 异常 支持 


- 为 了 解决 当 用 户 可 见 异 常 被 禁止 时 程序 失控 造成 的 问题 ， 异 常 可 能 被 延迟 。 当 编译 器 将 一 
条 指令 移 到 条 件 分 支 前 面 时 ， 会 将 其 慰 记 为 推测 执行 。 通 常 ， 除 了 store 指令 (不 能 推测 执行 ) 
之 外 的 所 有 指令 都 可 能 推测 执行 。 用 户 不 可 见 的 异常 仍然 可 以 在 引发 异常 的 指令 处 被 直接 处 
理 ， 但 是 对 于 用 户 可 见 的 异常 ， 只 有 当 发 生 在 非 推测 执行 指令 上 时 才 被 立即 处 理 。 当 推测 执行 
的 指令 触发 了 用 户 可 见 异常 时 ， 该 异常 会 被 延迟 。 我 们 将 异常 指令 的 目的 寄存 器 标记 为 “有 毒 
的 ”(poisoned) 并 且 填 人 一 个 伪造 值 或 者 一 个 异常 报告 ， 当 这 个 有 毒 值 被 其 他 推测 指令 读 取 
时 ， 就 会 传 到 读 指 令 对 应 的 目的 寄存 器 中 ,并 且 不 产生 异常 。 当 有 毒 值 被 某 条 非 推测 执行 指令 
作为 输入 操作 数 读 取 时 ， 则 进行 异常 处 理 ， 因 为 这 说 明 造 成 异常 的 推测 指令 实际 上 也 是 应 当 执 
行 的 (因为 它 的 值 被 一 条 非 推测 指令 使 用 了 )， 这 条 指令 不 再 处 于 推测 状态 。 当 没有 发 生 异 常 
的 指令 向 有 毒 寄存 器 中 写 入 新 值 时 ， 有 毒 标记 位 会 被 重 置 ， 因 为 这 表示 这 个 有 毒 值 没有 用 ， 并 
且 该 推测 指令 本 不 该 被 执行 。 图 3-37b 和 图 3-37e 中 代码 的 唯一 区 别 是 后 者 的 前 移 load 指令 使 
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用 了 推测 操作 码 。 如 果 推 测 执行 的 load 指令 没有 返回 任何 异常 ,或 者 返回 的 是 对 用 户 不 可 见 的 
异常 ， 那 么 硬件 就 把 它 当 作 一 条 普通 的 load 指令 。 然 而 ， 如 果 它 返回 的 是 终止 异常 ， 那 么 就 将 
寄存 器 R6 标记 为 有 毒 。 并 且 如 果 分 支 没有 执行 ，store 指令 会 捕获 到 该 异常 。 如 果 分 支 执行 
了 ，ADDI 指令 重新 填充 R6 寄存 器 ， 并 且 复 位 有 毒 标 记 位 ， 该 异常 没有 被 处 理 。 

有 毒 寄存 器 值 本 身 并 没有 实现 精确 异常 ， 因 为 异常 在 生成 异常 指令 的 程序 序 后 的 某 个 时 间 
才 被 处 理 。 除 了 违反 大 多 数 ISA 的 精确 异常 模型 之 外 ， 这 种 解决 方法 不 会 给 程序 员 提供 多 大 帮 
助 ， 因 为 异常 可 能 在 大 量 指令 执行 之 后 才 被 发 现 ， 并 且 难 以 追踪 。 为 了 解决 这 个 问题 从 而 实现 
精确 异常 ,. 可 以 在 load 指令 的 原始 执行 地 方 插入 一 条 检测 寄存 器 值 的 指令 ， 这 样 就 可 以 在 设想 
的 位 置 触发 异常 ， 从 而 实现 精确 异常 。 \ 

如 图 3-37d 所 示 ， 我 们 在 分 支 之 后 插入 了 一 条 检测 指令 ， 即 插入 在 代码 移动 之 前 的 load 指 
令 位 置 。 检 测 指令 只 是 检测 前 移 的 load 指令 的 目的 寄存 器 是 否 中 毒 。 如 果 是 的 话 ， 则 触发 异常 
并 先 执行 一 些 修复 代码 。 检 查 指 令 有 时 也 称 作 哨兵 (sentinel) ， 哨 兵 的 功能 和 推测 内 存 歧 义 消 
除 中 的 监护 指令 类 似 。 


3.6 EPIC 微 结 构 


3.4 节 和 3.5 节 分 别 介绍 了 微 结构 设计 中 挖掘 指令 级 并 行 (ILP) 的 两 个 极端 。 一 个 极端 
是 乱 序 执行 动态 调度 处 理 器 ， 它 只 依靠 基于 硬件 的 运行 时 技术 。 另 一 个 极端 是 YLIW 微 结构 ， 
所 有 决策 (从 取 指 到 完成 ) 都 在 编译 时 静态 决定 。 在 这 两 个 极端 之 间 的 是 对 静态 (编译 器 ) 
和 动态 (硬件 ) 支持 进行 各 种 权衡 折 中 的 设计 。 

显 式 并 行 指 令 计算 “(Explicitly Parallel Instruction Computing，EPIC) 微 结 构 是 在 静态 和 动态 
机 制 之 间 折 中 的 一 类 结构 。EPIC 包含 了 前 面 提 到 的 VLIW 体系 结构 的 大 多 数 概 念 (实际 上 前 
面 介 绍 VLIW 体系 结构 的 很 多 机 制 用 的 是 从 EPIC 微 结构 中 借鉴 的 术语 进行 描述 的 )， 具体 
包括 : 
高 度 依赖 编译 器 技术 来 分 发 和 调度 指令 ， 以 满足 操作 延迟 。 
采用 静态 预测 机 制 ， 比 如 分 支 预测 。 
循环 调度 〈 循 环 展开 和 模 调 度 ) 。 
trace 调度 〈 以 及 其 他 类 似 形式 的 非 循 环 调度 ) 。 
解决 寄存 器 重 命名 的 旋转 寄存 器 。 
谓词 执行 。 
针对 编译 时 内 存 歧义 消除 的 硬件 支持 。 
延迟 异常 。 
针对 推测 代码 移动 的 硬件 支持 。 
EPIC 体系 结构 与 VLIW 体系 结构 的 不 同 之 处 在 于 ，EPIC 通过 增加 硬件 支持 来 协助 处 理 异 


步 事 件 ; 例如 cache miss， 违反 内 存 别 名 (歧义 消除 ) 和 异常 等 。 指 令 字 中 的 发 射 槽 不 依赖 于 、 


特定 的 执行 单元 ， 并 且 其 类 型 在 不 同 指令 中 可 能 是 不 同 的 。 另 外 ， 指 令 携带 了 从 编译 器 传送 过 
来 的 用 于 指导 和 简化 硬件 的 信息 ;例如 指令 之 间 的 相关 性 (用 来 快速 检测 寄存 器 中 的 数据 冲 
突 ) 和 op 操作 的 功能 单元 (用 于 快速 检测 潜在 的 结构 冲突 ， 并 且 避 免 由 于 op 域 在 指令 中 不 固 
定 所 造成 的 开销 )。 与 VLIW 体系 结构 相反 ，EPIC 机 器 确实 有 一 些 冲 突 检 测 和 解决 能 力 ， 并 且 
在 同一 条 指令 字 中 分 发 的 op 操作 不 需要 在 整个 处 理 过 程 中 保持 同步 。 一 些 附加 的 动态 机 制 ， 
例如 动态 分 支 预测 等 ， 都 可 能 会 影响 指令 的 取 指 和 分 发 s 

这 些 动 态 机 制 通过 对 常见 情况 进行 调度 ， 并 且 在 硬件 层 提供 保护 机 制 用 于 检测 常见 情况 下 
的 违例 并 进行 软件 恢复 ， 从 而 达到 允许 我 们 采用 更 激进 的 编译 时 调度 的 目的 。 这 些 动态 机 制 的 
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扩展 是 可 变 的 ， 因 此 软件 和 硬件 之 间 的 边界 位 置 也 取决 于 编译 时 和 运行 时 机 制 之 间 的 权衡 。 例 
如 ， 对 于 cache miss， 编 译 器 可 能 试图 在 不 同 的 cache 层次 进行 cache miss 的 预测 ， 并 且 基 于 预 
测 结果 进行 调度 安排 ， 在 运行 时 ， 如 果 编 译 时 预测 结果 错误 ,那么 硬件 可 以 检测 到 ， 并 且 在 软 
件 层 对 调度 进行 修正 。 

目前 ，Intel 安 腾 系 列 处 理 器 中 采用 的 Intel IA-64 指令 集 就 是 为 EPIC 架构 开发 的 指令 集 。 


3.7 向 量 微 结 构 

”向 量 处 理 器 与 本 章 之 前 提 到 的 所 有 的 微 架构 都 不 相同 ， 首 先 ， 指 令 集 就 与 表 3-3 中 的 指令 
集 有 很 大 的 不 同 。 主 要 的 区 别 在 于 向 量 结构 的 指令 操作 数 是 整个 向 量 而 不 是 单独 的 标量 元 素 ， 
因此 实现 向 量 指令 集 的 机 器 结构 也 非常 不 同 。 

向 量 机 或 者 向 量 处 理 器 自 20 世纪 60 年 代 就 已 经 存在 ， 例 如 CDC 的 CDC Star、Cray 向 量 机 
以 及 IBM3033 的 向 量 单元 等 。 它 们 是 那个 年 代 科 学 和 工程 计算 应 用 领域 最 强大 的 机 器 ， 曾 被 称 
为 超级 计算 机 。 今天 ， 向 量 机 依然 在 超级 计算 机 市 场 占据 主导 地 位 ， 尽 管 它们 面临 着 基于 数 千 
标量 处 理 器 搭建 的 大 规模 多 处 理 器 的 竞争 。 向 量 处 理 器 还 瞄准 了 多 媒体 应 用 市 场 ， 其 中 大 向 量 
的 基础 数据 需要 通过 流 化 来 处 理 声音 、 图 像 和 视频 。Alitivec 是 PowerPC 体系 结构 针对 媒体 负 
载 处 理 的 一 个 向 量 扩展 实例 。 为 了 充分 挖掘 向 量 机 的 潜力 ， 程 序 必 须 先 由 向 量 编译 器 进行 向 量 
化 。 科学、 工程 、 技 术 以 及 媒体 应 用 代码 中 的 循环 结构 为 向 量化 提供 了 丰富 的 资源 。 

同 标量 机 一 样 ， 向 量 机 也 可 能 有 多 种 不 同 的 指令 集 。 本 节 我 们 将 使 用 一 套 类 似 Cray-1 体系 
结构 的 load/store 向 量 指令 集 。load/store 向 量 结构 有 一 个 向 量 寄存 器 集 ， 里 面 的 每 个 向 量 寄存 
器 都 包含 大 量 向 量 元 素 。 向 量 操作 数 必须 在 操作 之 前 加 载 到 向 量 寄存 器 ， 向 量 寄存 器 上 的 算术 
和 逻辑 运算 结果 被 存 人 男 一 个 向 量 寄存 器 。 最 终 ， 向 量 寄存 器 的 结果 必须 写 到 内 存 ， 以 便 给 下 
一 次 向 量 运算 腾 出 寄存 器 空间 。 指 令 有 如 下 类 型 : 

ADD.V V1,V2,V3 /* V1=V2+V3， 向 量 每 个 位 置 的 对 应 元 素 分 别 相 加 

L.V V1,R1,R2 /* 从 内 存 地 址 (RI) 开始 ， 按 照 步 长 (R2) 加 载 内 容 到 V1 寄 存 器 中 

S.V V1,R1,R2 /* 将 V1 寄存 器 中 的 内 容 存 按照 起 始 内 存 地 址 (Rl1 ) ， 步 长 (R2 ) 存储 到 内 存 中 


步 长 是 内 存 中 两 个 连续 向 量 元 素 之 间 的 地 址 差 。 向 量 操作 受到 向 量 长 度 寄存 器 的 控制 ， 
VL 中 保存 的 是 向 量 元 素 的 数量 ， 它 的 值 必须 小 于 等 于 所 有 向 量 寄存 器 中 元 素 的 数量 。 


3.7.1 算术 /逻辑 向 量 指令 

在 load/store 向 量 体 系 结构 中 ， 所 有 的 算术 /逻辑 向 量 操作 必须 通过 向 量 寄存 器 完成 。 从 现 
在 开始 我 们 假设 所 有 的 向 量 寄存 器 最 多 包括 64 个 元 素 。 

图 3-38 给 出 了 流水 化 的 加 法 功能 单元 执行 ADD. V 
的 过 程 。 在 ADD. V 指令 译 码 之 后 ， 流 水 线 被 配置 成 按照 
流 模式 执行 ADD 指令 。 两 个 输入 向 量 寄存 器 与 ADD 流 
水 线 的 两 个 输入 相连 ，ADD 流水 线 的 输出 与 输出 向 量 寄 
存 器 相连 。 一 旦 建立 完 连 接 ， 向 量 寄 存 器 的 第 一 对 输入 
向 量 元 素 (V2[0] 和 V3[0]) 就 被 送 到 流水 线 上 ， 之 后 
其 他 元 素 对 也 依次 逐 拍 送 和 流水线。 经 过 一 定时 钟 周期 
(ADD 流水 线 深度 长 度 ) 后 ,第 一 个 结果 流出 流水 线 ， 
并 且 存 人 目的 向 量 寄 存 器 的 第 一 个 元 素 中 (V1[0])。 之 
后 ， 每 个 时 钟 周期 存储 一 个 向 量 元 素 ， 总 共 N -1 个 元 
素 ，N 是 向 量 的 长 度 。 通常， 一 个 向 量 操作 的 运行 时 间 可 以 用 如 下 公式 表示 : 





图 3-38 向 量 ADD 指令 的 执行 过 程 
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RE (3.1) 
其 中 ,7 是 和 向 量 长 度 无 关 的 开销 。 

一 条 向 量 运 算 指 令 (例如 ADD. V) 可 以 完成 最 多 64 个 标量 操作 ， 它 节省 了 标量 处 理 器 中 
完成 相同 操作 所 需 的 所 有 处 理 步 又。 此外， 编译 器 需要 确保 这 64 个 操作 数 相互 独立 ， 这 样 就 
不 需要 数据 前 递 或 者 数据 冲突 检测 机 制 ， 也 可 以 确保 没有 控制 冲突 。 这 样 ，ADD 流水 线 就 可 
以 针对 功能 进行 优化 ， 也 可 以 增加 流水 级 深度 以 提高 处 理 速度 。 深 度 流 水 线 的 唯一 缺点 在 于 
7.mw 开 销 ， 这 个 开销 必须 通过 整个 向 量 长 度 进行 分 扒 。T,,,,,, 越 大 ， 那 么 短 向 量 操作 就 越 难 获 
得 高 的 效率 ， 当 向 量 寄 存 器 短 到 某 种 程度 时 ， 标 量 模式 执行 反而 可 能 会 更 高 效 。 在 某 种 程度 
上 ，7sw 的 值 决 定 了 向 量 操作 有 效 的 最 小 向 量 长 度 。 \ 


3.7.2 内存 向 量 指令 


内 存 向 量 指令 声明 了 一 个 基地 址 和 一 个 步 长 ，VL 寄存 器 给 出 了 元 素 长 度 (最 多 64 个 )。 
对 于 高 效 的 矩阵 操作 来 说 能 够 以 不 同步 长 访问 内 存 这 一 点 很 重要 。 很 多 科学 、 媒 体 和 信号 处 理 
程序 都 基于 二 维 或 者 三 维 数组 ， 二 维 数组 必须 存 到 一 维 线性 内 存 地 址 中 ， 一 般 按 行 或 者 按 列 存 
储 。 最 起 码 必须 支持 对 数组 行 、 列 和 对 角 线 的 高 效 访问 。 

图 3-39 给 出 了 对 一 个 wx W 矩阵 的 主要 访问 类 型 。 候 N 
设 数 组 在 内 存 中 按 行 存储 ， 那 么 行 以 步 长 1 访问 ， 列 以 步 ” 短 阵 A 行 
长 入 访问 ， 正 向 对 角 线 以 步 长 N+1 访问 ， 反 向 对 角 线 以 
步 长 入 -1 访问。 N 

由 于 计算 在 向 量 中 的 结构 化 ， 每 个 内 存 访问 指令 实际 
上 是 对 大 量 (一 次 最 多 64 个 ) 内 存 地 址 访问 。 更 重要 的 
是 ,向量 所 有 元 素 的 位 置 在 指令 译 码 阶段 就 是 已 知 的 。 这。 反 向 正 向 
与 标量 机 器 不 同 ， 标 量 机 器 的 硬件 每 次 计算 一 个 内 存 地 址 。 对 角 线 。 下 对 角 线 
因此 ， 内 存 向 量 指令 中 的 所 有 内 存 访问 在 指令 译 码 之 后 就 ”图 3-39 NxN 和 矩 降 的 访问 类 型 
都 可 以 立即 调度 。 向 量 机 不 需要 cache， 因 为 cache 的 行为 不 可 预测 。 内 存 组 织 针对 按照 固定 步 
长 读 取 这 种 模式 进行 优化 。 内 存 通常 组 织 成 交叉 的 、 独 立 的 多 个 存储 体 (bank) ， 以 便 连 续 的 
向 量 元 素 分 布 在 不 同 的 存储 体 中 ， 从 而 可 以 并 行 访问 。 虽然 内 存 访问 时 间 较 长 ， 但 是 向 量 模式 
下 ， 数 以 百 计 的 存储 体 可 以 同时 激活 并 向 处 理 器 高 速 传输 所 有 的 向 量 元 素 。 

图 3-40a 显示 了 一 个 用 来 进行 高 效 向 量 访问 的 交叉 存储 组 织 结构 。 连 续 的 地 址 分 布 在 连续 
的 存储 体 中 以 便 可 以 并 行 访问 。 存 储 体 的 数量 等 于 访问 存储 体 所 需 的 时 间 (以 时 钟 周期 为 单 
位 ,本 例 中 是 4 个 周期 )。 向 量 X 的 元 素 交叉 存 人 存储 体 中 ， 因 此 X[i] 被 存 人 (imod 4) 号 
存储 体 。 内 存 控制 器 MC 将 存储 体 连接 到 向 量 寄存 器 ， 并 控制 对 存储 体 访问 的 顺序 。 图 3-40b 
展示 了 一 条 向 量 load 指令 的 访问 时 间 。 在 连续 的 多 个 时 钟 周期 中 ， 对 和 [让 的 访问 从 
(i mod 4) 号 存储 体 开 始 。 注 意 每 个 存储 体 只 在 4 个 时 钟 周 期 中 是 繁忙 的 ， 这 样 对 相同 存储 体 
的 连续 访问 在 时 间 上 不 会 重 释 。4 个 时 钟 周期 之 后 ，X[0] 的 值 由 0 号 存储 体 返回 。 紧 随 其 后 ， 
每 个 时 钟 周期 返回 了 的 一 个 元 素 。 对 向 量 load 指令 访问 的 调度 与 逻辑 算术 指令 的 调度 相似 ， 
store 指令 也 是 这 样 。 可 以 用 公式 (3. 1) 计算 执行 一 条 向 量 load 或 者 store 指令 所 花费 的 时 间 。 
通常 有 些 步 长 可 能 会 造成 存储 体 冲 突 ， 从 而 减 慢 内 存 取 数 的 速率 。 例 如 ， 如 果 步 长 为 2 或 者 4， 
图 3-40 所 示例 子 虽 由 于 存储 体 冲 突 ， 访 问 速率 将 变 成 每 个 元 素 需 要 2 个 或 者 4 个 时 钟 周期 。 存 
储 体 越 多 ， 则 冲突 的 可 能 性 越 小 。 而 存储 体 的 最 小 数量 取决 于 单个 存储 体 的 访问 周期 数 。 当 
然 ， 为 了 并 行 执行 不 同 向 量 中 的 多 个 不 冲突 的 load 和 store 操作 ， 增 大 存储 体 数量 也 是 必要 的 。 
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b) 
3-40 向 量 访问 的 存储 组 织 方式 


3.7.3 向 量 分 段 开采 和 链接 


在 load/store 体系 结构 中 ， 向 量 操作 数 必须 首先 放 到 寄存 器 中 。 由 于 向 量 寄存 器 有 长 度 限 
制 (这 里 是 64 个 元 素 ) ， 因 此 较 长 的 向 量 操作 数 必须 被 分 割 为 适合 寄存 器 长 度 的 连续 分 段 
(strip) ， 这 个 过 程 被 称 为 向 量 分 段 开采 。 

考虑 如 下 的 长 向 量 操作 ; 


于 


其 中 ,X 和 YY 是 内 存 中 的 浮 点 长 向 量 ,， 同 时 a 是 内 存 中 的 一 个 浮 点 标量 。 在 load/store 体系 结 
构 中 ， 支 持 长 向 量 操作 的 代码 是 一 个 在 每 次 迭代 中 人 处理 64 个 向 量 元 素 的 循环 : 


让 还 F0,0 (R1) /* 将 标量 元 素 读 入 F0 
LOOP : L.V V1,0(R2) ,R6 /* 读 取 X 的 64 个 元 素 到 V1 ， 步 长 为 1 ((R6)=1) 
MUL.V V2,V1,F0 
L.V V3,0(R3),R6 /* 读 取 Y 的 64 个 元 素 到 V3， 步 长 为 1 
ADD.V V4 ,V2,V3 
S.V V4,0(R3),R6 /* 将 Y 的 64 个 元 素 存 入 V4， 步 长 为 1 
ADDI R2,R2,#64 
ADDI R33 #6a 
ADDI R4,R4 ,#1 
BNE R4,R5, LOOP 


这 个 循环 看 起 来 像 是 标量 机 里 的 循环 ,但 是 循环 每 迭代 一 次 就 处 理 了 一 个 64 个 元 素 的 向 
量 段 。 现 在 用 图 3-41 来 说 明 一 个 向 量 段 的 执行 过 程 。 | 
该 图 给 出 了 循环 中 每 次 迭代 时 的 向 量 操作 ， 包 括 4 个 步骤 。 两 个 向 量 load 可 以 并 行 执行 读 
取 数 据 到 V1 和 V3 中 ， 然 后 使 用 MUL. V 指令 将 V1 乘 以 标量 a 结果 存 人 V2。 然 后 再 使 用 
ADD. V 指令 将 V2 和 V3 相 加 ， 结 果 存 人 V4。 最 后 将 V4 存 入 内 存 。 假 设 访问 内 存 没 有 冲突 ， 
64 个 元 素 的 向 量 段 总 共 运 行 时 间 为 : 
页。 NM 1 ty yy 


startup slartup startup 


(ADD) +7 


startup 


(S$S)+4x(VL) C3 和 2) 
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图 3-41 向 量 操作 链 


其 中 ，(VL) 是 向 量 长 度 〈 最 多 为 64) 。 

最 后 一 项 是 运行 时 间 的 主 项 ， 其 计算 依据 是 : 除了 两 个 load 指令 可 以 并 行 执行 外 ，strip 中 
的 其 他 向 量 操作 每 次 只 能 执行 一 个 。 为 了 最 大 程度 地 降低 执行 开销 ， 可 以 对 向 量 操作 进行 链 
接 。 链 接 之 后 ， 向 量 操作 不 会 等 到 其 向 量 输 入 寄存 器 全 部 被 填充 好 后 才 执 行 ， 只 要 它 的 输入 寄 
存 器 的 第 一 个 元 素 可 用 ， 向 量 操作 就 会 立即 开始 执行 ， 这 样 两 个 操作 就 可 以 在 一 个 长 的 组 合 向 
量 操作 中 链接 起 来 。 每 个 输入 向 量 寄存 器 有 一 个 写 端口 和 一 个 读 端 口 。 读 端口 上 的 寄存 器 地 址 
会 对 写 端口 上 的 寄存 器 地 址 进行 跟踪 ， 以 便 数据 一 写 入 寄存 器 堆 就 可 以 立即 使 用 5 理想 情况 
下 ， 如 果 一 切 顺 利 ， 多 个 向 量 操作 会 转化 为 一 个 包含 多 级 流水 的 长 向 量 操作 。 

例如 ,图 3-41 中， 只 要 load X 的 第 一 个 元 素 存 人 V1[0] ，MUL. V 就 开始 执行 。 之 后 ， 当 
MUL V 的 第 一 个 结果 存 入 V2[0] 时 ，ADD. V 立即 开始 执行 。 注 意 ADD.Y 的 第 二 个 输入 
(load Y 的 结果 ) 还 在 计算 中 ,但 是 这 不 重要 ， 因 为 V3 的 写 端 日 和 读 端 日 不 需要 访问 连续 的 寄 
存 器 。 重 要 的 是 读 端口 在 写 端口 之 后 。 最 后 ， 当 ADD. V 的 第 一 个 结果 可 用 并 存 人 V4[0] 时 ， 
store Y 也 开始 执行 。 如 果 一 切 顺利 (没有 内 存 冲突 )， 采 用 链接 技术 的 分 段 执 行 时 间 可 以 如 下 
计算 : 

下 Ce 3 

对 于 (VL) =64 来 说 ， 节 省 的 时 钟 周期 总 数 为 192， 这 是 一 个 巨大 的 性 能 提升 。 


3.7.4 条 件 语句 


包含 条 件 语句 的 循环 无 法 通过 前 面 介绍 的 机 制 进行 向 量化 。 带 有 条 件 语 句 的 循环 可 以 通过 
用 谓词 替换 条 件 分 支 来 向 量化 ， 就 像 VLIW 和 EPIC 中 采样 的 方法 。 通 过 执行 一 个 类 似 标 量 机 
环境 中 的 MIPS SLT 指令 那样 的 逻辑 向 量 操作 ， 将 谓词 存储 到 向 量 掩 码 (Vector Mask，VM) 寄 
存 器 中 。 然 后 ， 向 量 操作 可 以 在 向 量 掩 码 的 控制 下 执行 。 考 虑 如 下 的 循环 : 

for (i=0;i<64;i++) 

if (A[i]==0)then ., A[i] =B [i]; 
else A[i]=A[i]+x; 

这 段 代 码 的 汇编 版 本 (向 量化 的 ) 首先 对 循环 进行 分 段 开采 。 通 过 将 A 中 的 元 素 和 0 进 
行 比 较 得 到 向 量 掩 码 。 对 于 每 个 段 ， 代 码 首先 计算 then 子 名 内 的 语句 (这 里 是 一 条 简单 的 load 
指令 ) 和 else 子 句 内 的 语句 ， 然 后 then 和 else 子 句 的 结果 在 向 量 掩 码 的 控制 下 进行 合并 。 


和 V1,0(R1) ,R6 /* 将 A 按 步 长 1 读 入 到 VI 
SETMZ V1 /* 如 果 A[ 订 =0， 将 YM[i] 设置 成 1 
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1 V2,0(R2),R6 /* 将 B 按 步 长 1 读 取 到 V2 
ADD.V V2,V1,F0,VM /* 根据 VM 中 的 谓词 ， 将 A 和 x 相 加 ， 结 果 存 入 V2 
S.V V2,0(R1),R6 /* 将 V2 按 步 长 1 存 入 A 


向 量 操作 按照 VM 的 值 进行 条 件 执行 时 ， 所 有 的 值 都 要 计算 出 来 ,但 是 结果 是 否 要 存 入 目 
的 向 量 寄存 器 则 取决 于 向 量 掩 码 位 。 


3.7.5 scatter 和 gather 操作 


“ 当 访 问 模式 按照 固定 步 长 有 规律 地 进行 时 ， 向 量 处 理 器 的 向 量 内 存 访问 是 最 高 效 的 。 然 
而 ， 有 时 候 ， 我 们 需要 从 分 散 的 不 同位 置 的 内 存 中 取 值 来 构造 向 量 ， 这 个 过 程 叫 作 gather 
操作 

for (i=0;i<N;i++) 
A[il]=B[INDEX [i]] 
INDEX 是 向 量 B 中 的 一 个 索引 向 量 ， 并 且 可 以 是 任何 值 的 集合 ， 这 些 值 在 编译 时 是 未 
知 的 。 
与 之 相反 ， 有 时 候 ， 我 们 也 需要 将 一 个 向 量 寄存 器 中 的 值 分 散 存储 到 内 存 的 不 同位 置 中 ， 
这 个 过 程 叫 作 scatter 操作 。 
for (i=0;i<N;i++) 
B [INDEX [i]] =A[i] 
某 些 向 量 处 理 器 没有 实现 gather 和 scatter 操作 的 向 量 指 令 ， 这 种 情况 下 ， 通 过 标量 模式 执 
行 。 图 3-42 说 明了 gather 和 scatter 向 量 指令 的 功能 。 在 gather 指令 中 ( 左 侧 )， 向 量 寄存 器 V1 
被 来 自 内 存 中 不 同 地 址 的 值 填充 。 这 一 过 程 可 以 通过 以 另 一 个 向 量 寄 存 器 的 元 素 作 为 索引 的 特 
殊 load 指令 来 实现 。 在 scatter 指令 中 ( 右 侧 ) ， 向 量 寄存 器 V2 的 内 容 被 存 人 内 存 中 不 同 的 地 
址 。 这 一 过 程 也 可 以 通过 一 条 特殊 的 store 指令 实现 ， 该 store 使 用 存储 在 另 一 个 向 量 寄 存 器 中 
的 索引 值 作为 地 址 。 


gather 





图 3-42 向量 gather 和 scatter 操作 实现 


gather 和 scatter 操作 的 一 个 重要 应 用 是 稀 玻 矩阵 计算 。 稀 朴 和 矩阵 计算 中 存在 大 量 零 元 素 ， 
如 果 像 稠密 矩阵 一 样 按 行 存 取 ， 并 且 处 理 和 矩阵 中 的 所 有 零 元 素 的 话 ， 那 将 极 大 浪费 内 存 和 处 理 
器 带宽 。 节 省 内 存 和 避免 无 用 操作 的 方法 之 一 是 将 矩阵 表达 形式 从 稠密 变换 为 稀疏 。 在 稀 朴 矩 
阵 表达 形式 中 ， 和 矩阵 A 以 两 个 向 量 进行 存储 : 一 个 存储 矩阵 A 中 所 有 非 零 元 素 的 向 量 A_VALUE， 
一 个 存储 矩阵 A 中 这 些 非 零 元 素 索 引 值 的 向 量 A_INDEX， 即 A_INDEX[i] 是 矩阵 A 中 非 零 元 
素 A_VALUE[i] 的 索引 。gather 操作 将 矩阵 表达 形式 从 稠密 转换 为 稀疏 ， 反 之 ，scatter 操作 将 
矩阵 表达 形式 从 稀 朴 转换 为 稠密 。 
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习题 
3.1 对 比 以 下 四 种 指令 集 架 构 (ISA) 在 代码 紧凑 性 和 访 存 流量 两 方面 的 效率 (参见 3.2.3 节 ): 
e 基于 累加 器 (accumulator-based)。 
e 基于 栈 (stack-based)。 
。 基于 内 存 到 内 存 (memory-to-memory， 所 有 的 操作 数 都 位 于 内 存 ) 。 
。 基于 寄存 器 (register-based) ( 纯 load/store)。 
假定 指令 和 数据 大 小 如 下 : 
。 所 有 的 数据 操作 数 长 度 都 是 4 字 节 。 
。 所 有 的 内 存 地 址 都 是 16 位 。 
。 所 有 操作 码 长 度 都 是 1 字 节 。 
。 所 有 的 内 存 地 址 字段 长 度 都 是 2 字 节 。 
。 在 load/store 类 型 机 器 中 ， 所 有 寄存 器 字段 长 度 都 是 4 位 (支持 16 个 32 位 寄存 器 ) 。 
此 外 ， 所 有 的 内 存 地 址 都 是 32 位 ， 所 有 的 指令 和 数据 取 数 都 可 以 在 一 次 访 存 中 完成 。 考 虑 如 下 的 
HLL 代码 : 


A 
局 


B+A 

A= 人 CD 
使 用 上 述 四 种 不 同 指令 集 架 构 (基于 累加 器 、 栈 、 内 存 到 内 存 ， 以 及 load/store 型 ) 编译 此 代码 。 
其 中 在 内 存 到 内 存 架 构 中 ， 不 需要 使 用 额外 的 内 存 位 置 。 对 于 编译 生成 的 每 段 代 码 ， 请 确定 以 下 
指标 : (1) 代码 大 小 ; (2) 数据 访 存 流量 (包含 寻 址 ) ; (3) 指令 流量 (包含 地 址 ) 。 然 后 基于 这 
三 个 指标 对 上 述 四 种 指令 集 架构 进行 对 比 。 

3.2 (a) 从 地 址 1000H 到 地 址 1003H 中 的 字 节 填充 为 如 下 数字 : 

1000H: 23H 

1001H: F7H 

1002H: 32H 

1003H: AB | 

假定 采用 二 进 制 补 码 算 术 表示 并 且 操 作 数 对 齐 ， 请 给 出 存储 在 地 址 1000H 中 的 32 位 字 对 应 的 十 

进 制 数 的 值 ， 再 按照 小 端 字 节 序 和 大 端 字 节 序 这 两 种 存储 规范 ， 分 别 给 出 地 址 1000H 和 1002H 

处 的 16 位 半 字 所 对 应 的 十 进 制 数 的 值 。 

字符 使 用 8 比特 ASCII 编码 存储 在 内 存 中 。 找 一 个 ASCII 码 表 并 将 “GO TROJANS!” 翻 译 成 

ASCI 码 ， 假 设 这 名 话 在 内 存 中 的 存储 起 始 地 址 为 T000H。 请 分 别 按照 小 端 字 节 序 和 大 端 字 节 序 

两 种 存储 规范 ,给 出 位 置 1000H、I001H、1002H 和 1003 王 字 节 中 的 内 容 。 

3.3 使 用 表 3-3 中 的 MIPS 汇编 指令 编译 如 下 代码 片段 ， 并 采用 表 3-27 所 示 的 动态 指令 混合 方式 。 


(b 


— 


表 3-27 动态 指令 混合 

















指令 时 钟 周期 
算术 /逻辑 1 
Load 2 
Store 1 
分 支 ( 不 跳 转 ) 1 
分 支 ( 跳 转 ) 3 
其 他 1 


SS = 03; 
Eor (1=0; i1<100; ++) 
S= S§+ A[i]; 
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数组 A[i] 由 100 个 4 字 节 的 整 型 数组 成 ,存储 在 连续 递增 的 内 存 地 址 中 ，AL0] 存储 在 内 存 地 址 

1000 中 。 除 了 以 下 限制 ， 你 可 以 随意 分 配 寄存 器 。 

(a) 第 一 ,假设 在 整个 循环 中 ; 没有 变量 (包括 i) 会 被 编译 器 分 配 到 寄存 器 ， 即 所 有 的 变量 在 使 
用 时 都 从 内 存 中 读 和 人 〈 装 人 时 ) 或 者 写 入 到 内 存 ( 洲 出 时 )。 请 给 出 代码 ， 并 根据 表 3-27 中 
每 类 指令 的 执行 时 间 来 估计 整体 据 行 时 间 。 

(b) 第 二 ,假设 在 整个 循环 中 ，S 和 i 都 被 分 配 在 寄存 器 中 。 一 开始 它们 就 载 信 到 寄存 器 中 并 完成 
初始 化 。 然 后 在 循环 结束 时 ， 寄 存 器 溢出 写 和 内存 中 。 其 他 的 内 存 值 在 需要 时 也 先 读 入 寄存 
器 。 请 给 出 代码 ， 并 根据 表 3-27 中 每 类 指令 的 执行 时 间 来 估计 整体 执行 时 间 。 

根据 3. 3. 1 节 的 经 典 流水 线 设计 ， 考 虑 如 下 的 程序 ， 该 程序 对 一 块 内 存 区 域 进行 查找 ， 并 计算 和 关 

键 字 匹配 的 内 存 字 的 次 数 : 


SERRCH : LW R5,0(R3) /I1 载 入 项 
SUB R6,R5,R2 /I2 对 比 关 键 字 
BNEZ R6,NOMATCH /I3 检查 是 否 匹配 
ADDI R1,R1,#1 /I4 计算 匹配 次 数 
NOMATCH: ADDI R3,R3,#4 /I5 下 一 项 


BNE R4,R3,SEARCH /I6 继续 直到 所 有 项 检查 完毕 


假定 分 支 总 是 预测 为 不 跳 转 ， 如 果实 际 跳 转 的 话 ,- 需 要 到 EX 流水 级 才能 确定 。 下 面 的 所 有 情况 都 
包括 支持 分 支 的 硬件 结构 。 考 虑 如 下 几 种 解决 数据 冲突 的 可 能 流水 线 互 锁 机 制 ， 并 针对 每 个 循环 
迭代 〈 除 了 最 后 一 次 迭代 外 ) 回答 以 下 问题 : 

(a) 首先 ， 假 设 流 水 线 没有 前 递 单元 和 冲突 检测 单元 ， 甚 至 在 寄存 器 堆 内 部 也 不 支持 值 的 前 递 。 

请 重 写 上 述 代码 ， 在 需要 的 地 方 插 入 NOOP 指令 以 使 代码 能 够 正确 执行 。 

(b) 接着 ,假设 仍然 不 支持 前 递 ,但 冲突 检测 单元 会 在 ID 阶段 暂停 指令 以 避免 冲突 。 在 下 列 情况 
下 循环 执行 一 次 迭代 需要 耗费 多 少时 钟 周期 :(1) 匹配 的 情况 下 ; (2) 没有 匹配 的 情况 下 。 
(ce) 接着 ,假设 支持 寄存 器 前 递 ， 并 且 冲 突 检 测 单元 会 在 ID 阶段 暂停 指令 以 避免 冲突 。 在 下 列 情 

况 下 循环 执行 一 次 迭代 需要 耗费 多 少时 钟 周期 :(1) 匹配 的 情况 下 ; (2) 没有 匹配 的 情况 下 。 
(d) 接着 , 假设 支持 完全 前 递 ， 并 且 冲 突 检测 单元 会 在 D 阶段 暂停 指令 以 避免 冲突 。 在 下 列 情况 

下 循环 执行 一 次 迭代 需要 耗费 多 少时 钟 周期 : (1) 匹配 的 情况 下 ; (2) 没有 匹配 的 情况 下 。 
(e) 请 找 出 代码 中 的 基础 块 ( 使 用 指令 编号 表示 )。 如 果 采 用 局 部 优化 是 否 可 以 缩短 执行 周期 ? 为 

什么 ? 如果 编 译 器 将 5 移 到 BNEZ 之 前 是 否 安全 ? 这 样 做 是 否 有 效 ? 效果 如 何 ? 

(0) 编译 器 可 否 通过 循环 展开 来 改善 性 能 ? 效果 如 何 ? 延迟 分 支 是 否 有 效 ? 

现在 探讨 流水 线 设计 。 流 水 线 设计 需要 均衡 流水 线 的 各 个 阶段 ,完美 均衡 的 流水 线 就 是 指 完成 流 
水 线 的 每 一 个 阶段 所 耗费 的 时 间 都 完全 相同 。 然 而 ， 在 实际 中 ,完美 均 衡 的 流水 线 几 乎 不 可 能 存 
在 。 因 此 ， 良 好 的 流水 线 实 现 ， 首 先 就 是 创建 一 个 简单 而 且 几 和 卑 均衡 的 设计 ， 使 得 流水 线 的 每 个 
阶段 都 耗费 大 致 相同 的 时 间 。 流 水 线 设计 的 第 二 个 重要 方面 是 每 一 级 流水 线 生成 的 结果 都 会 被 下 
一 级 使 用 。 在 回答 本 问题 的 时 候 ,， 请 牢记 以 上 两 点 。 

图 3-43 显示 了 一 个 只 能 执行 ALU 指令 的 微 处 理 器 的 非 流 水 实现 。 这 个 简单 的 微 处 理 器 需要 执 
行 一 系列 任务 : 首先 ， 它 通过 递增 PC 的 值 来 计算 下 一 条 要 取 指 令 的 地 址 。 其 次 ， 它 使 用 PC 访问 
LI-eache。 然 后 ， 再 对 指令 进行 译 码 。 指 令 译 码 器 本 身 又 被 分 成 多 个 更 小 的 任务 ， 要 译 码 出 指令 类 
型 ， 一 旦 操作 码 译 码 完 成 ， 它 需要 译 码 出 执行 指令 所 需 的 功能 单元 ， 同 时 ， 它 也 会 译 码 出 指令 所 
使 用 的 源 寄存 器 或 立即 数 和 需要 写 太 的 目标 寄存 器 。 一 旦 译 码 过 程 完 成 ， 就 将 访问 寄存 器 堆 〈 立 
即 数 可 从 指令 自身 访问 ) ， 以 获得 源 数 据 。 接 着 ， 激 活 对 应 的 ALU 单元 (由 功能 译 码 器 指定 ) 用 
于 计算 结果 ， 结 果 再 被 写 回 到 目标 寄存 器 中 。 

请 注意 这 个 微 处 理 器 的 译 码 机 制 与 之 前 讨论 的 MIPS 译 码 器 不 同 。 在 MIPS 译 码 器 中 ， 译 码 是 
整体 作为 一 个 单一 的 操作 ， 即 译 码 器 在 进行 源 寄存 器 译 码 之 前 不 需要 知道 操作 码 。 然 而 ,在 这 个 
简单 微 处 理 器 中 ， 译 码 器 需要 在 译 码 源 操作 数 和 目标 操作 数 之 前 就 知道 操作 码 。 此 外 ， 译 码 源 操 
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3.6 


3.7 








图 3-43 ”寄存 器 -寄存 器 指令 的 非 流 水 机 器 


作 数 和 目标 操作 数 的 任务 实际 上 也 被 细 分 成 多 个 更 小 的 任务 。 

请 注意 每 一 个 模块 的 延迟 在 图 中 已 经 标注 出 来 。 例 如 ， 访 问 I-cache 需要 花费 6ns，, 访问 寄存 器 堆 

需要 4ns 等 。 

(a) 针对 上 面 所 介绍 的 简单 处 理 器 ， 实 现 一 个 五 级 流水 线 〈( 正 ，ID1，ID2，EX，WB) ， 尽 量 使 所 
有 的 流水 级 之 间 保 持 均 衡 ， 不 考虑 任何 的 数据 冲突 。 图 3-43 中 的 每 一 个 子 块 都 是 一 个 不 可 再 
分 的 基本 单元 ， 每 个 流水 线 寄 存 器 需要 0. 5ns 的 建立 时 间 。 在 流水 实现 中 必须 维持 原 有 的 功 
能 ， 换 句 话 说 ,程序 员 编 写 代码 时 ， 和 这 台 机 器 是 否 支 持 流水 线 无 关 。 请 给 出 流水 线 实现 的 
示意 图 。 

(b) 非 流 水 和 流水 实现 的 指令 周期 的 延迟 (以 ns 为 单位 ) 分 别 是 多 少 ? 假定 在 流水 实现 中 ， 每 个 
流水 线 寄 存 器 需要 0. 5ns 的 建立 时 间 。 

(c) 非 流水 和 流水 实现 的 机 器 周期 时 间 (以 ns 为 单位 ) 分 别 是 多 少 ? 

(d) 流水 实现 与 原来 的 非 流水 实现 相 比 ， 可 获得 的 加 速 比 是 多 少 ? 

(e) 哪 种 微 架 构 技术 可 以 进一步 减少 流水 设计 中 的 机 器 周期 时 间 ? 找 出 瓶颈 所 在 ,说 明 机 器 周期 
时 间 是 如 何 减 小 的 。 

重复 问题 3.4， 但 假设 CPU 是 超 流水 结构 的 ， 所 以 取 指令 需要 两 个 周期 (IF1 和 IF2)， 数 据 load 和 

store 也 需要 两 个 周期 (ME1 和 ME2) ， 因 此 ， 流 水 线 总 共有 7 级 。 假 定 分 支 指令 在 EX 阶段 中 处 理 

并 且 总 是 硬件 预测 为 不 跳 转 。 

在 经 典 的 五 级 流水 线 中 ,假定 将 分 支 结 果 总 是 预测 为 跳 转 而 不 是 不 跳 转 。 分 支 指令 在 ID 阶段 进行 

译 码 并 计算 其 目标 地 址 ， 在 ID 阶段 结束 时 ， 条 件 分 支 总 是 跳 转 ， 同 时 刷 掉 正中 的 内 容 。 然 后 ， 在 

EX 阶段 中 ， 对 分 支 条 件 进 行 确认 。 如 果 确 认 分 支 是 跳 转 的 ， 则 继续 执行 ; 否则， 如 果 确 认 分 支 是 
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不 跳 转 的 ， 则 刷 掉 下 和 了 流水 级 ， 并 且 重 新 到 branch_PC +4 处 取 指 执行 。 
(a) 跳 转 的 分 支 占 分 支 指令 的 比例 应 该 达到 多 少时 ， 才 能 使 始终 跳 转 的 分 支 预测 设计 相 比 始 终 不 
跳 转 的 分 支 预测 设计 更 好 ? 
(b) 在 每 个 条 件 分 支 指令 中 增加 一 个 提示 位 。 编 译 器 通过 设置 提示 位 引导 硬件 预测 为 跳 转 ， 通 过 
重 置 提示 位 引导 硬件 预测 为 不 跳 转 。 提 示 位 在 译 码 阶 段 进行 识 别 ， 因 此 ， 实 现 这 两 个 硬 连 线 
方案 (始终 跳 转 和 始终 不 跳 转 ) 在 分 支 指令 执行 过 程 中 不 会 引入 额外 的 周期 损耗 。 请 问 ， 编 
译 器 应 该 获得 多 少 的 预测 成 功率 ， 才 能 使 这 种 方法 的 性 能 总 是 比分 支 始终 预测 为 跳 转 的 硬件 
方案 要 好 ? 如 果 要 比分 支 始终 预测 为 不 跳 转 的 硬件 方案 更 好 ， 编 译 器 的 预测 成 功率 又 应 该 是 
多 少 ? 假定 编译 器 对 跳 转 分 支 和 不 跳 转 分 支 的 预测 成 功率 相等 ， 请 用 以 下 变量 描述 你 的 解决 
方案 : 
。 f 是 跳 转 分 支 所 占 的 比例 。 
。 了 是 编译 器 预测 算法 的 成 功率 〈 即 被 编译 器 准确 预测 分 支 结果 的 分 支 指令 比例 ); 应 该 
是 8 在 这 两 种 情况 下 的 函数 。 
以 支持 完美 分 支 处 理 (最 优 机 制 ， 分 支 不 会 浪费 任何 的 时 钟 周期 ) 的 实现 作为 比较 基准 ， 请 
在 此 之 上 比较 以 下 几 种 情况 对 应 的 单条 指令 能 耗 (Energy Per Instriction ，EPI) : 
。 总 是 预测 不 跳 转 。 
。 总 是 预测 跳 转 。 
se 带 有 提示 位 的 编译 分 支 预 测 ， 且 错误 预测 率 为 5% 。 
为 了 简化 问题 ,假定 每 一 级 流水 线 在 每 一 个 时 钟 周 期 的 能 耗 相同 (无 论 是 什么 指令 ， 即 使 
NOOP 指令 也 是 这 样 )， 刷 流水 线 的 能 耗 忽略 不 计 。 假 设 指令 中 分 支 指令 所 占 的 比例 为 b。 
3.8 本 题 中 ,我 们 评估 在 支持 指令 乱 序 执行 完成 的 不 同 静态 流水 线 中 ,支持 冲突 检测 所 需 的 硬件 结构 。 
在 图 3-8 所 示 的 五 级 流水 线 基础 上 增加 浮 点 扩展 。 
每 个 流水 线 寄存 器 ( 浮 点 或 者 整 型 ) 都 含有 自己 的 目标 寄存 器 号 ，ME/WB 执行 两 条 指令 ， 一 条 来 
自 整 型 流水 线 ， 一 条 来 自 浮 点 流水 线 。 
考虑 如 下 的 指令 类 型 : 
。 整 型 算术 /逻辑 /存储 指令 (输入; 两 个 整 型 寄存 器 ) 和 所 有 load 指令 (输入 : 一 个 整 型 寄存 
器 ) 。 
。 浮 点 算术 指令 (输入: 两 个 浮 点 寄存 器 ) 。 
e 浮 点 store 指令 (输入 : 一 个 整 型 和 一 个 浮 点 寄存 器 ) 。 
所 有 值 都 尽 可 能 早 地 进行 前 递 ， 整 型 和 浮 点 这 两 个 寄存 器 堆 都 支持 内 部 前 递 。 所 有 数据 冲突 
都 在 含有 冲突 检测 单元 (HDU) 的 ID 阶段 解决 。ID 根据 需要 从 整 型 或 浮 点 寄存 器 堆 中 读 取 寄存 
器 ， 由 操作 码 来 确定 操作 数 取 出 的 寄存 器 堆 。 
(a) 为 了 解决 在 寄存 器 中 的 RAW 数据 冲突 ( 整 型 或 浮 点 数 ) ， 硬 件 会 检查 〈 互 锁 ) ID 中 的 当前 指 
令 和 流水 线 中 可 能 会 阻塞 ID 阶段 指令 的 其 他 指令 。 首 先 请 列 出 所 有 需要 在 ID 阶段 进行 检查 
的 流水 线 寄 存 器 。 由 于 MEAWB 可 能 有 两 个 目的 寄存 器 ， 将 它们 表示 为 MEAWB (int) 或 ME/ 
WB ( 印 ) 。 不 需要 列 出 各 个 流水 线 ， 列 出 流水 线 寄存 器 ， 并 确保 该 组 检查 规模 是 最 小 的 。 
为 了 解决 寄存 器 上 的 WAW 冲突 ， 将 D 阶段 的 目的 寄存 器 与 各 个 流水 级 中 指令 的 目标 寄存 器 
进行 对 比 检查 。 请 列 出 所 有 需要 检查 的 流水 线 寄存 器 ， 并 确保 这 是 需要 检查 的 最 小 组 合 。 重 
要 提示 : 请 记 住 在 ID 阶段 有 相关 机 制 可 以 避免 两 个 寄存 嚣 堆 的 写 寄 存 器 端口 的 结构 冲突 。 
解决 RAW 和 WAW 冲突 的 方案 请 按照 如 下 格式 表述 : 
。 如 果 是 ID 阶段 的 整 型 算术 /逻辑 /store/load 指令 ， 检 查 < 流水 线 寄存 器 > 。 
。 如 果 是 ID 阶段 的 FP load 指令 ;检查 < 流水 线 寄 存 器 > 。 
。 如 果 是 ID 阶段 的 了 算术 指令 ， 检 查 < 流水 线 寄 存 器 > 。 
。 如 果 是 蔬 阶段 的 FPstore 指令 ， 检 查 < 流水 线 寄 存 器 > 。 
3.9 使 用 如 图 3-10 所 示 的 超 流水 架构 重复 问题 3.8。 假 设 所 有 指令 都 支持 前 递 (包含 FP store) 。 需 要 
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注意 的 是 浮 点 和 整 型 的 值 可 以 从 ME1AME2 和 ME2/WB 中 进行 前 递 。 
解决 RAW 和 WAW 冲突 的 方案 请 按照 如 下 格式 表述 : 
。 如 果 是 ID 阶段 的 整 型 算术 /逻辑 /store/load 指令 ,检查 < 流水 线 寄存 器 > 。 
。 如 果 是 卫 阶段 的 FP load 指令 ， 检查 < 流水 线 寄存 器 > 。 
。 如 果 是 DD 阶段 的 PP 算术 指令 ,检查 < 流水 线 寄 存 器 > 。 
。 如 果 是 ID 阶段 的 FP store 指令 ， 检 查 < 流水 线 寄存 器 > 。 
如 图 3-9 所 示 的 流水 线 可 以 消除 寄存 器 上 的 WAW 数据 冲突 并且 可 以 在 WB 流水 级 处 理 异常 ， 
因为 指令 和 经 典 五 级 流水 线 一 样 按照 进程 序 顺 序 完 成 。 与 之 前 的 假设 一 样 ， 值 可 以 前 递 到 执行 单 
元 的 输入 端口 。 
(a) 为 了 支持 所 有 指令 的 完全 前 递 ， 请 列 出 从 流水 线 寄存 器 到 EX 或 者 FP1 所 需 的 所 有 前 递 通路 ， 
按照 “ 源 一 目的 (如 ，FP2/FP1-*FP1)” 这 样 的 格式 列 出 。 
(b) 基于 上 述 前 递 通路 ， 如 果 要 解决 RAW 神 突 ， 请 给 出 在 ID 阶段 的 冲突 检测 单元 (HDU) 需要 
做 的 所 有 检测 。 请 按照 如 下 格式 给 出 解决 寄存 器 RAW 冲突 的 方案 : 
。 如 果 是 印 阶段 的 整 型 算术 /人 逻辑 /store/load 指令 ， 检 查 < 流水线 寄存 器 > 。 
。 如 果 是 阶段 的 FP 算术 指令 ， 检 查 < 流水 线 寄 存 器 > 。 
。 如 果 是 DD 阶段 的 FP store 指令 ， 检 查 < 流水线 寄存 器 > 。 
(e) 这 种 架构 在 异常 处 理 上 还 存在 一 个 小 问题 ， 那 就 是 store 执行 较 早 并 且 在 写 回流 水 级 retire 之 
前 就 改写 了 内 存 ， 请 问 如 果 这 样 做 ， 那 么 会 存在 什么 问题 ? 请 给 出 一 个 解决 该 问题 的 方案 。 
(不 建议 类 似 “ 存 储 内 存 值 ， 然 后 在 异常 中 进行 恢复 ”这 样 的 解决 方案 。) 
考虑 图 3-44 所 示 的 超标 量 体 系 结构 ， 该 结构 可 以 同时 取 两 条 连续 指令 ，PC 递增 8。 为 了 简化 流水 
线 互 锁 ， 把 译 码 拆 分 为 IDL1 和 ID2 两 个 阶段 。 通 过 一 个 支持 两 种 设置 (直接 连接 和 交叉 连接 ) 的 
开关 将 ID1 和 ID2 分 开 。 上 层 ID2 只 能 处 理 整 型 /分 支 指令 或 FP load/store 指令 。 下 层 ID2 只 能 处 
理 了 P 算术 指令 。 


Bh ht fm 
pe i 区 中国 
图 3-44 两 路 超标 量 CPU 


假定 也 是 ID1 中 的 上 层 指 令 ，Z 为 IDL 中 的 下 层 指 令 。 为 了 保证 进程 序 ，I 必须 在 Z 之前、 或 

者 是 同时 进入 ID2， 以 便 保持 处 理 顺 序 。 以 下 是 在 ID1 完成 的 操作 。 

。 如 果 1 为 一 个 整 型 /分 支 指令 或 FP load/store 指令 或 者 是 NOOP， 并 且 了 不 依赖 于 也 〈 预 期 的 
情况 下 ) ， 那 么 将 开关 切换 到 直接 连接 。 

。 如 果 联 是 一 个 FP load 指令 并 且 了 需要 使 用 由 load 返回 的 值 ， 在 .ID1 中 阻塞 住 2， 并 设置 开 
关 为 直接 连接 (下 层 ID2 送 入 NOOP 指令 ) :以便 将 也 发 送 至 ID2。 

。 如 果 了 下 是 IFP 算 术 指令 ,阻塞 Z 并 将 开发 送 至 ID2， 设 置 开 关 为 交叉 连接 (上 层 ID2 送 入 
NOOP 操作) 。 

如 果 卫 和 及 都 是 整 型 /分 支 指令 或 FP load/store 指令 ， 在 了 D1 上 阻塞 也 并 移动 也 至 ID2， 设 

置 开关 为 直接 连接 (下 层 ID2 送信 NOOP 操作 )。 

如 果 了 是 整 型 /分 支 指令 或 FP load/store 指令 ,并且 了 是 NOOP; 将 卫 、 卫 发 送 到 ID2, 设置 

开关 为 交叉 连接 。 

因此 ， 如 果 取 到 的 两 个 指令 存在 依赖 或 者 类 型 不 匹配 ， 它 们 就 会 在 ID1 串 行 化 操作 。 由 于 流 

水 线 冲 突 ，ID2 中 的 指令 会 被 阻塞 ,就 好 像 是 二 个 单 发 射 处 理 器 。 如 果 它 们 与 流水 线 中 之 前 的 其 

他 指令 都 没有 数据 冲突 ， 则 可 以 继续 往 前 推进 。 我 们 实现 如 图 3-8 所 示 的 前 递 通路 ， 当 指令 在 

ID2 上 阻塞 时 ， 则 在 正和 1 了 D1 上 的 指令 也 同样 会 阻塞 。 
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(a) 简要 描述 ID2 对 应 的 HDU 的 功能 。 
(b) 假定 分 支 总 是 硬件 预测 为 不 跳 转 ， 请 说 明 分 支 指令 的 处 理 过 程 (考虑 分 支 在 ID1 上 层 或 下 层 
的 两 种 情况 ) 。 
(c) 考虑 下 面 的 代码 : 
LOOP L.D F2,0(R1) 
ADD.D F4,F2,F4 
L.D F6,-8(R1) 
RDD.D F8,F6,F4 
S.D F8,0(R1) 
SUBI R1,R1,16 
BNEZ R1, LOOP 


比较 该 循环 的 一 次 兴 代 (不 包括 最 后 一 次 迭代 ) 在 本 题 对 应 机 器 以 及 在 习题 3.8 和 3.9 所 描 
述 的 机 器 上 的 执行 时 间 。 假 定 习 题 3. 9 的 机 器 可 以 在 EX1 阶段 确定 分 支 指令 结果 。 
借助 深度 流水 线 和 较 高 的 时 钟 频率 ， 超 流水 线 技术 看 起 来 是 提高 性 能 的 一 种 可 扩展 解决 方案 。 不 
过 ， 这 项 技术 仍然 有 以 下 几 个 问题 : 
。 当 流 水 级 数 增加 时 ， 功 能 逻辑 的 延迟 将 按 比例 下 降 ， 但 流水 线 寄存 器 的 延迟 不 会 改变 。 
。 数据 依赖 所 引发 的 开销 (流水 线 空 泡 ) 将 会 增加 。 
。 当 分 支 预测 错误 时 ， 剧 掉 的 流水 线 级 数 会 增加 。 
。 在 深度 流水 线 下 ， 如 果 内 存 性 能 没有 提高 ， 那 么 cache 失效 的 代价 将 会 增 大 。 
我 们 按照 如 下 方式 进行 建 模 ， 令 了 是 单 周 期 CPU 的 时 钟 周期 ，K 为 流水 级 数 。 使 用 级 流水 线 的 
CPU 的 时 钟 周期 按 如 下 方式 建 模 ; 
yy LT = 
fa {ee 
其 中 4 是 锁 存 每 个 阶段 输出 所 需 的 时 间 (建立 时 间 )。 数 据 冲突 导致 的 每 条 指令 代价 (以 时 钟 周 
期 为 单位 ) 模型 为 : 


同样 ， 由 于 错误 预测 分 支 〈 控 制 冲 突 ) 导致 的 每 条 指令 
三 2oh 全 


最 后 ， 因 为 cache 失效 时 需要 更 多 的 时 钟 周期 ， 所 以 cache 失效 的 代价 也 会 影响 深度 流水 线 的 加 速 
比 ， 通 过 以 下 方式 建 模 : 


A memory = 


5 

ad 是 由 于 五 级 流水 线 的 数据 冲突 ， 每 条 指令 在 D 阶段 的 平均 阻塞 数 ; a, 是 预测 错误 的 分 支 指令 

所 占 比 例 〈 假 设 在 五 级 流水 线 中 预测 错误 的 代价 是 两 个 时 钟 周 期 ); as 是 在 五 级 流水 线 中 ， 由 于 

cache 失效 而 导致 的 每 条 指令 平均 浪费 的 时 钟 周期 数 。 

(a) 解释 这 些 模型 的 基本 原理 。( 提示: 上 述 模型 大 致 基于 五 级 流水 线 中 的 代价 ) 

(b) 给 出 一 个 以 流水 级 数 天 为 变量 的 计算 预期 指令 吞吐 量 的 公式 。 

(ec) 是 否 存 在 一 个 可 获得 最 佳 否 吐 量 的 最 优 流水 线 深度 ? 如 果 有 ， 最 优 流水 线 深 度 是 多 少 (表示 
为 4 、as、as 和 a 的 函数 )? 

(d) 在 一 个 实际 案例 中 ，as =0.2 (由 于 寄存 器 RAW 冲突 ， 每 5 条 指令 中 会 有 1 条 有 一 个 周期 的 
延迟 ) ，as =0. 06 (五 分 之 一 的 指令 是 分 支 指令 ， 静态 分 支 预测 成 功率 为 70% ) ，a。 =0.5 
(每 条 指令 平均 对 应 0.05 次 的 cache 失效 ，cache 失效 的 开销 为 10 个 周期 )。 再 假设 单 周期 
CPU 的 指令 延迟 时 间 了 为 10ns， 流水线 寄存 器 的 开销 是 100ps。 请 问 最 优 的 流水 线 深度 是 多 少 ? 
在 上 述 最 优 流水 线 深度 下 的 吞吐 量 是 多 少 ? 在 相同 的 假设 下 ， 它 与 五 级 流水 线 相 比 如 何 ? 
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3. 13 基于 一 段 计算 Y=YxX+Z (其 中 X、Y 和 ZZ 蚌 双 精度 8 字 节 浮 点 向 ) 的 简单 代码 ， 比 较 三 种 动 


态 调度 处 理 器 结构 的 性 能 。 
使 用 表 3-3 中 的 核心 SA， 循环 体 可 以 被 编译 为 如 下 代码 ， 
LOOP LL.D F0,0(RI) /将 X[ 记 读 取 到 F0 

LD F2;,0(R2) /将 Y[ 让 读 取 到 F2 

L.D F4,0(R3) /将 Z[ 订 读 取 到 F4 

MUL.D F6,F2,FO0 /Y 乘 以 X 

RDD.D F8,F6,F4 / 加 Z 


RDDI R1,R1,#8 /更 新 地 址 寄存 器 
ADDI R2,R2,#8 \ 
ADDI R3,R3,#8 
S.D F8, -8(R2) /结果 存储 到 Y[ 订 
BNE R4,R2,LOOP/  / (R4)-8 指向 Y 的 最 后 一 个 元 素 
R1，R2 和 R3 被 特殊 初始 化 ,保证 它们 在 整个 执行 期 间 的 值 都 不 会 相同 (这 对 于 内 存 歧 义 消 
除非 常 重要 )。 三 种 不 同 的 体系 结构 分 别 如 图 3-15， 图 3-23， 和 图 3-27 所 示 ， 全 都 采用 相同 的 参 
数 。 BNE 分 支 指 令 始 终 预测 为 跳 转 (除了 Tomasulo， 在 Tomasulo 中 不 对 分 支 进行 预测 ， 而 是 直接 
在 分 发 流水 级 上 阻塞 住 ， 直 到 分 支 的 结果 确定 ) 。 
请 记 住 以 下 重要 规则 (如果 适 用 的 话 ) : 
。 指令 总 是 按照 程序 序 进 行 取 指 、 译 码 和 分 发 。 
。 在 支持 推测 的 架构 中 ， 指 令 总 是 按照 程序 序 提交 退出 。 
。 在 支持 推测 的 架构 中 ，store 操作 需要 等 到 其 到 达 ROB 顶部 时 ， 才 能 发 射 到 cache。 
(a) 不 支持 推测 的 Tomasulo 算法 。 基 于 循环 的 第 一 次 迭代 ， 按 照 逐 个 时 钟 周期 的 方式 填写 表 3- 
28， 表 中 的 每 一 项 对 应 事件 发 生 的 时 钟 周 期 数 ( 从 第 1 拍 开始 计数 )。 在 备注 栏 中 可 以 做 一 
些 必要 的 记录 (有 助 于 帮助 别人 了 解 你 的 想法 ) 。 


表 3-28 不 支持 推测 的 Tomasulo 算法 


(b) 支持 推测 的 Tomasulo 算法。 请 基于 循环 的 第 ~ 次 迭代 ， 按照 逐个 时 钟 周期 的 方式 填写 表 3- 
29， 表 中 的 每 一 项 对 应 事件 发 生 的 时 钟 周期 数 〈 从 第 1 拍 开 始 计 数 ) 。 请 注意 ，store 操作 要 
等 到 其 到 达 ROB 顶部 之 后 才能 在 cache 中 执行 (和 不 支持 推测 的 Tomasulo 算法 不 同 ) 。 此 
外 ,分支 指令 预测 为 跳 转 。 


表 3-29 支持 推测 的 Tomasulo 算法 















II LD Fo, OCRI) 
LDF2, 0(R2) 








ll LD FoO, OCRI) 


RLDTF2, 0(R2) 





(c) 推测 调度 。 请 基于 循环 的 第 一 次 兴 代 ， 按 照 逐 个 时 钟 周期 的 方式 填写 表 3-30， 表 中 的 每 一 项 
对 应 事件 发 生 的 时 钟 周期 数 〈 从 第 1 拍 开始 计数 ) 。 


表 3-30， 推测 调度 
| 分 发 | 发 射 | 读 寄存 员 开 始 执 行 | 完成 执行 | cache | CDB | retre 
El 
本 hd ve har by dls alosiaih ss | 

















HL LD FO, 0(RI1) 
LDF2, 0(R2) 
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(d) 根据 单个 迭代 的 数据 流 图 中 的 关键 路 径 延 迟 ， 计 算 最 小 可 能 的 执行 时 间 。 数 据 流 图 中 的 每 个 
节点 是 循环 迭代 中 的 一 条 指令 ， 节 点 之 间 通 过 有 向 边 连接 ， 每 条 有 向 边 对 应 两 条 RAW 相关 

的 指令 ( 父 指令 和 子 指令 )。 有 向 边 上 标记 了 父 指令 的 执行 时 间 (以 周期 为 单位 )。 这 里 只 

考虑 数据 依赖 (假设 硬件 资源 无 限 ，cache-100% 命 中 ,分支 预测 总 是 正确 )。 

请 画 出 对 应 循环 一 次 迭代 的 数据 流 图， 在 数据 流 图 上 确定 关键 路 径 ， 并 计算 数据 流 图 计 
算出 的 最 好 的 可 能 执行 时 间 。 比 较 在 上 面 三 种 不 同 的 结构 下 循环 第 一 次 迭代 所 需 的 执行 时 
间 。 可 以 通过 比较 相 邻 两 个 迭代 内 的 第 一 个 load 操作 发 射 的 时 钟 周 期 之 差 来 计算 循环 的 执行 
时 间 。 

本 题 比 较 复杂 ， 我 们 将 探讨 推测 执行 中 的 一 些 在 之 前 没有 讲 过 的 技术 , 包括 多 指令 分 发 和 ROB 中 
的 结构 冲突 。 

为 了 简化 起 见 ， 我 们 使 用 与 习题 3. 13 (b) 相同 的 架构 ， 即 支持 推测 的 'Tomasulo 算法 ，ROB 
的 作用 是 保存 推测 值 ， 并 跟踪 指令 的 线程 序 。 

每 个 时 钟 周期 分 发 两 条 指令 。ROB 尺寸 为 8 项 ， 当 ROB 满 时 停止 分 发 。ROB 中 必须 有 两 项 
空闲 时 ， 才 会 执行 两 条 指令 的 分 发 ， 从 而 确保 指令 的 分 发 总 是 成 对 进行 。 

在 分 发 这 一 列 中 记录 了 指令 分 发 所 在 周期 (括号 中 的 数 ) 结尾 留 在 ROB 中 的 项 数 。 每 次 分 
发 一 条 新 指令 时 ， 在 下 一 个 周期 就 会 占用 一 个 新 的 ROB 项 。 当 指令 进入 retire 阶段 时 ， 同 一 周期 
内 对 应 的 ROB 项 就 会 被 释放 ， 并 且 立 即 提供 给 其 他 新 的 指令 。 

为 了 观察 ROB 冲突 的 影响 ， 跟 踪 两 个 循环 迭代 。 请 完成 表 3-31 ( 表 的 前 两 行 已 经 填 好 ) 。 


| 表 3-31 支持 推测 的 Tomasulo 算法 (两 路 超标 量 ) 













ll LD FO, 0(R1) 
LB LDF2, 0(R2) 








类 似 前 面 的 习题 ,通过 比较 第 二 个 和 第 三 个 迭代 中 各 自 第 一 个 load 发 射 的 时 钟 周期 之 差 ， 可 
以 估算 出 一 次 循环 迭代 的 执行 时 间 。 请 问 两 路 分 发 是 否 提高 了 性 能 ”瓶颈 在 哪里 ? 
在 本 题 中 ;我 们 探讨 使 用 简单 的 内 存 move 操作 来 消除 内 存 歧义 的 效果 : 
for(i=0;i<100;i++) 
A[TN a BU] 
在 上 述 代 码 中 ,向 量 A 和 B 在 内 存 的 不 同 区 域 ， 两 者 没有 共同 的 元 素 。 对 应 的 汇编 代码 如 下 : 


LOOP L.D F2,0(R1) 
ADDI R1,R1,#8 
ADDI R2,R2,#8 
S.D F2,-8(R2) 
BNEQ Rl1,R3,LOOP 


采用 和 习题 3. 14 相同 的 架构 ' (支持 推测 和 两 路 分 发 的 Tomasulo 算法 ) 。 
根据 如 下 两 种 不 同情 况 分 别 填充 表 3-32: (1) 保守 模式 (直到 之 前 所 有 store 的 地 址 都 已 知 时 才 
将 load 操作 发 射 到 cache); (2) 推测 模式 ( 当 之 前 store 的 地 址 未 知 时 ，load 操作 也 会 发 到 
cache) 。 请 记 住 ，store 操作 必须 等 到 到 达 ROB 顶部 时 才能 发 射 到 cache。 


表 3-32 支持 推测 的 Tomasulo 算法 (两 路 超标 量 ) 










分 发 发 射 
LL.DF2, 0(R1) 区 
D ADDIRI，R1, 部 | 1 (6) 2 


119 LD F2, 0(R1) 


retire 
6 
7 























726 
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PS: 
ww 
地 





考虑 循环 中 如 下 代码 片段 : 
if (x is odd) then <- (分 支 b1) 
increment a <- (bl 不 跳 转 ) 
if (x is a multiple of 5) then <- (分 支 b2) 
+ increment b 1 <- (b2 不 跳 转 ) 


假设 用 上 述 循环 的 9 次 迭代 分 别处 理 如 下 的 % 值 序列 : 8, 9, 10, 11, 7, 20, 29, 30, 31。 
(a) 假设 用 1 位 的 状态 机 〈 见 图 3-45a) 来 预测 循环 中 的 两 个 分 支 执行 。 给 出 循环 每 次 迭代 中 bl 
和 b2 这 两 条 分 支 指令 的 预测 结果 和 实际 分 支 方向 。 假 设 预测 器 的 初始 状态 为 0， 即 不 跳 转 
(not taken，NT) 。bl 和 b2 的 预测 准确 度 分 别 是 多 少 ? 两 个 分 支 的 整体 预测 准确 度 又 是 多 少 ? 
分 支 预测 缓冲 区 


1 | DasNT 
HD 


a ) 带 1 位 预测 器 的 BPB 


g=0 g=1 
& 12 b2 


b ) 带 1 位 预测 器 和 1 位 全 局 历史 的 BPB 
图 3-45 ”分支 预测 缓冲 区 (BPB) 


(b) 假设 现在 使 用 一 个 两 级 的 分 支 预 测 方案 。 除 了 1 位 预测 器 之 外 ， 还 使 用 一 个 1 位 全 局 历史 寄 
存 器 (g),，g 存储 上 次 执行 的 分 支 方 向 (可 能 与 当前 预测 的 分 支 是 同一 条 指令 ， 也 可 能 不 
是 ) ， 并 用 于 索引 两 个 独立 的 1 位 预测 器 表 ， 如 图 3-45b 所 示 。 
根据 g 的 值 ， 选 取 这 两 个 预测 器 表 中 的 一 个 用 于 通常 的 1 位 预测 。 此 后 ， 按 照相 同 的 方 
式 ， 填 写 循环 9 次 迭代 中 所 有 bl 和 b2 的 预测 分 支 方向 和 实际 分 支 方向 。 假 设 & 的 初始 值 为 
0， 即 NT。 每 次 预测 时 ， 根 据 g 的 当前 值 ， 两 个 预测 表 中 只 有 一 个 会 被 访问 并 更 新 。 
对 于 循环 的 每 次 迭代 ， 请 给 出 g 的 值 ， 以 及 bl 和 b2 分 支 指令 的 预测 分 支 方向 和 实际 分 
支 方 向 。 假 定 预测 表 的 初始 状态 全 部 为 零 ， 那 么 bl 和 b2 的 预测 准确 度 分 别 是 多 少 ? 所 有 分 
支 的 整体 预测 准确 度 又 是 多 少 ? 
(c) 当 g=0 时 ，b2 分 支 的 预测 成 功率 是 多 少 ? 请 解释 原因 。 
考虑 下 面 的 循环 : 
ADDI R1,R0,#1000 
ADD R2,R0,RO 
LOOP: BNEZ R2,LAB1 
ADDI R2,R0,#1 
BEQZ RO,LAB2 
LAB1: ADD R2,R0,RO 
LAB2: SUBI R1,R1,#1 
BNEZ R1,LOOP 


对 于 每 种 类 型 的 分 支 预 测 机 制 (GAg; -GAp, PAg，PAp)， 使 用 大 小 为 1 的 分 支 历史 模型 ， 包 括 1 
位 的 预测 器 以 及 10 位 的 分 支 PC， 用 于 访问 私有 的 历史 模式 或 预测 表 。 请 问 每 种 预测 器 的 预测 错 
误 率 分 别 是 多 少 ? 

在 图 3-46 的 循环 中 ，A0，A1，A2 和 A3 是 基本 块 ，b 是 一 个 二 进 制 变量 ,在 循环 的 连续 迭代 中 按 
如 下 方式 取 值 (b。，b, ，b, )”， 即 b 的 值 分 别 为 : bo, bi, bs, bo, bi, b,, bo, bl, b,, …, R 
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是 用 作 循环 索引 的 寄存 器 。 不 幸 的 是 ，b,。 ，b:; ，b; 中 的 值 是 依赖 于 输入 数据 的 ， 因 此 ， 当 使 用 不 
同 的 输入 数据 运行 代码 的 时 候 ，b。，b, ，b, 的 预期 值 可 能 是 8 种 组 合 的 任 一 种 ， 并 且 概 率 相同 。 





3-46 循环 


回答 下 列 问 题 时 ， 请 忽略 进入 循环 和 退出 循环 的 影响 ， 假 定 分 支 预测 缓冲 器 中 的 相关 结构 都 已 经 

完成 预 热 。 换 名 话说 ,假设 循环 迭代 的 次 数 非常 大 (无穷 大 ) 。 

(a) 假设 采用 简单 的 一 位 预测 器 (没有 历史 记录 ) ， 并 假设 在 两 个 分 支 PC 之 间 没 有 别名 。 对 于 
b。，b, ，b 的 每 种 可 能 值 ， 给 出 1 位 预测 器 的 预测 错误 率 。 





CT i ar 
(b) 假定 采用 简单 的 两 位 预测 器 (饱和 计数 器 ， 无 历史 记录 ) 重复 上 述 问 题 ， 同 样 假设 在 两 个 分 
支 之 间 没 有 别名 。 


bos bya | 100 | an 110 111 
预测 错误 率 〈% ) ET 


假设 所 有 的 模式 出 现 的 可 能 性 相同 ， 请 问 平均 预测 错误 率 是 多 少 ? 
(c) 假定 采用 带 有 两 位 全 局 历史 的 两 位 预测 器 ， 重 复 上 述 问 题 。 


bps 本人 广 巫 ho01 | 111 
预测 错误 率 (% ) Me 本 
假设 所 有 的 模式 出 现 的 可 能 性 相同 ， 请 问 平均 预测 错误 率 是 多 少 ? 
(d) 一 位 和 两 位 预测 器 的 问题 在 于 它们 忽略 分 支 历 史 ， 所 以 它们 无 法 记忆 复杂 的 模式 。 请 给 出 一 
个 预测 器 设计 ， 无 论 b,，b, ，b, 取 什 么 值 都 能 使 针对 b 的 分 支 预测 准确 率 达 到 100% 。 在 回 
答 本 问题 时 ， 请 画图 说 明 预 测 器 结构 ， 给 出 具体 的 访问 方式 ， 并 给 出 所 用 到 的 所 有 表 的 
大 小 。 
本 题 探讨 分 支 和 控制 流 变 化 对 标量 流水 线 结构 下 程序 性 能 的 影响 。 当 取 指 和 分 支 确 定 (或 条 件 和 
目标 确定 ) 之 间 的 流水 级 数 越 多 时 ， 分 支 的 开销 就 越 大 。 流 水 执行 的 上 述 效 应 推动 了 对 分 支 预 测 
的 需求 。 本 题 主 要 探讨 静态 分 支 预测 ， 基 础 机 器 为 五 级 流水 线 。 分 支 预测 跳 转 和 不 跳 转 按照 习 
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题 3.7 描述 的 方式 进行 处 理 。 无 条 件 分 支 在 ID 流水 级 执行 。 

本 题 将 使 用 大 家 熟知 的 冒 泡 排序 程序 。 在 冒 泡 排序 中 ， 待 排序 元 素 将 被 反复 扫描 ， 每 个 元 素 
与 后 一 个 元 素 进 行 比较 ， 如 果 后 一 个 元 素 更 小 ， 则 进行 交换 。 如 果 在 扫描 过 程 中 没有 元 素 交 换 ， 
则 排序 过 程 结束 。 假 设 寄存 器 RO 始终 为 零 。 基 本 块 号 对 应 的 执行 trace 在 代码 段 后 面 给 出 ， 假 定 
下 面 的 执行 trace 对 应 的 是 程序 的 实际 执行 过 程 。 


示例 代码 : 冒 泡 排序 


基本 块 行 号 标签 汇编 指令 注 普 
二 国运 main: ADDI R2,R0,ListArray R2 <- ListArray; 

| RDDI R3,R0,Listend R3 <- Listend; 
二 儿 ADDI RS5,RO0,#1 \ swap<-1; 
2 4 loopl: BEQ R5,RO0,end while (swap!=0) 

{ 
3 瑟 ADD RS5,RO,RO swap<-0; 

6 RDD R4,RO0O,R2 i<-0; 

4 7 loop2: BEQ R4,R3,cont while (i < Listend) 

{ 
5 ' 必 LW R6,0 (R4) templ = ListArray [i]; 
5 9 LW R7,4 (R4) temp2 = ListArray [i+1]; 
起。 开 0 SLT R8,R7,R6 
5 二 BEQZ R8,skip if (templ > temp2) 

{ 
6 12 ADDI R5,RO0,#1 swap<-1; 
13 SW R7,0 (R4) ListArray[i] <- temp2; 
后 多 SW R6,4(R4) ListArray [i+1] <- templ; 
} 

了 -一 上 5 Skip: RDDI R4,R4,#4 ++ 7 
nh J loop2 1 
8 7 cont: J loopl } ) 
9 .18 end: JR R31 return 


上 述 代 码 中 总 共有 9 个 基本 块 ， 执 行 tace 对 应 如 下 基本 块 号 : 12345674574574567 
4823457457456745674829 | 
(a) 请 解释 每 个 基本 块 (1 ~9) 是 如 何 确 定 的 。 
(b) 分 支行 为 和 统计 。 填 写 如 下 的 分 支 执行 表 ( 表 3-33)， 用 NN 表示 不 跳 转 ,，T 表 示 跳 转 。 该 表 
格 用 来 记录 每 个 分 支 的 执行 模式 ， 根 据 上 面 的 执行 trace 进行 填写 。 


表 3-33 ”分 支行 为 
分 支 指 令 执行 编号 

















根据 表 3-33; 计算 出 下 面 表 3-34 所 要 求 的 统计 信息 。 按 照 上 面 问题 描述 中 给 出 的 假设 ， 无 
条 件 分 支 和 有 条 件 分 支 的 平均 代价 分 别 是 多 少 ( 条 件 分 支 总 是 由 硬件 预测 为 不 跳 转 ， 无 条 件 
分 支 在 如 阶段 执行 )? 平均 开销 指 的 是 每 个 分 支 平均 损失 的 时 钟 周期 数 。 


处 理 器 微 结构 129 





表 3-34 分 支 执 行 统计 


不 跳 转 次 数 | 跳 转 百分比 | 不 跳 转 百分比 


天 
ER 


执行 该 trace 总 共 需 要 多 少 个 时 钟 周期 (包括 所 有 的 流水 线 填充 和 排 空 周 期 )? 由 于 控制 相关 
导致 的 阻塞 总 共 损 失 了 多 少 个 时 钟 周 期 ? 
静态 分 支 预测 是 影响 分 支 执行 的 软件 方法 ， 可 以 用 于 减少 控制 相关 引起 的 阻塞 。 分 支 操作 码 
中 带 有 一 个 静态 预测 位 ， 表 示 执 行 该 分 支 过程 中 可 能 的 跳 转 方向 。 静 态 分 支 预测 在 五 级 流水 
线 的 译 码 阶段 进行 。 这 里 引入 如 下 新 的 分 支 操作 码 ; 
BEQT- 相 等 则 跳 转 ， 静 态 预 测 为 跳 转 ; 
BEQN- 相 等 则 跳 转 ， 静 态 预 测 为 不 跳 转 ; 
BNEZT- 不 等 于 0 则 跳 转 ， 静 态 预 测 为 跳 转 ; 
BNEZN- 不 等 于 0 则 跳 转 ， 静 态 预 测 为 不 跳 转 。 
我 们 也 可 以 定义 其 他 类 似 的 分 支 指令 。 静 态 分 支 预测 在 译 码 阶段 进行 ， 当 静态 预测 跳 转 
的 分 支 指令 进行 译 码 时 ,= 机 器 也 总 是 预测 为 跳 转 。 相 反 ， 当 静态 预测 不 跳 转 的 分 支 指令 进行 
译 码 时 ， 机 器 也 总 是 预测 为 不 跳 转 。 
请 使 用 新 的 带 静 态 分 支 预测 信息 的 操作 码 重 写 在 代码 序列 中 的 所 有 条 件 分 支 指令 (4， 
7，11)。 使 用 表 3-34 中 所 生成 的 分 支 执行 统计 数据 来 确定 操作 码 。 
使 用 该 trace 重新 执行 新 的 代码 ， 包 括 流 水 线 填 充 和 排 空 的 周期 ,请问 总 的 周期 数 是 多 
少 ? IPC 又 是 多 少 ? 
3.20 为 了 改善 题 3. 11 中 的 超标 量 处 理 器 性 能 ， 编 译 器 可 以 应 用 局 部 (基本 块 内 ) 或 全 局 ( 跨 基本 块 ) 
调度 。 代 码 如 下 : 
LOOP L.D F2,0(RI) 
ADD.D F4,F2,F4 
L.D F6, -8(R1) 
ADD.D F8,F6,F4 
S.D.-EF8..— 0(RL) 
SUBI R1,R1,#16 
BNEZ R1, LOOP 


(a) 首先 ， 编译 器 可 以 通过 简单 的 代码 移动 来 调度 循环 体内 的 代码 ， 以 尽量 减少 阻塞 ( 局 部 调 
度 )。 请 给 出 对 该 代码 的 局 部 调度 方案 ， 并 计算 在 超标 量 架 构 上 相 比 原本 代码 的 加 速 比 。 
(b) 接 下 来 ， 编 译 器 会 尝试 展开 循环 。 不 幸 的 是 ， 寄 存 器 F4 存在 跨 迭 代 的 依赖 (一 个 迭代 的 依 
赖 距离 )。 虽 然 编译 器 可 以 (也 应 该 ) 通过 对 F4 的 重 命名 来 避免 代码 移动 中 产生 的 WAW 和 
WAR 冲突 ， 但 寄存 器 重 命名 还 是 解决 不 了 RAW 冲突。 不 过 我 们 依然 可 以 获得 一 些 额外 的 加 
速 。 请 将 循环 展开 两 次 ， 并 进行 指令 调度 。 优 化 后 相 比 于 原 代码 的 加 速 比 是 多 少 ? 编译 器 能 

够 通过 展开 更 多 循环 而 获得 更 高 的 加 速 比 吗 ? 为 什么 ? 

(c) 接 下 来 尝试 软件 流水 。 请 注意 软件 流水 必须 谨慎 使 用 一 一 流水 循环 的 某 次 迭代 中 产生 的 值 不 
能 在 下 一 次 迭代 后 使 用 ， 因 为 在 下 一 次 迭代 中 值 已 经 被 重 写 过 了 。 请 对 上 述 代 码 进 行 流水 
化 ， 以 获得 最 佳 的 加 速 比 。 软 件 流 水 比 循环 展开 的 效果 更 好 吗 ? 相 比 原 代码 的 加 速 比 是 
多 少 ? 


分 支 指令 编号 























(c 


— 
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3.21 考虑 如 下 程序 ， 它 搜索 一 块 内 存 区 域 ， 并 计算 内 存 字 和 某 个 关键 字 匹 配 的 次 数 : 


SEARCH: LW R5,0(R3) /II 读 取 数 据 项 
SUBI R6,R5,R2 /I2 和 关键 字 比 较 
BNEZ R6,NOMRTCH /I3 检测 是 否 匹配 
ADDI R1,R1,#1 /I4 计算 匹配 次 数 

NOMATCH: ADDI R3,R3,#4 /IS 下 一 项 


BNE R4,R3,SEARCH /I6 直到 所 有 项 检测 完成 


(a) 请 识别 出 这 上段 代码 中 的 基本 块 ， 并 绘制 基本 块 的 流程 图 。 

(b) 调 到 NOMATCH 的 分 支 之 后 的 短 基 本 块 通常 称 为 hammock， 循 环 中 的 hammock 是 乱 序 执行 处 
理 器 效率 不 高 的 重要 原因 。 为 了 便于 理解 ， 我 们 可 以 针对 循环 的 前 两 次 迭代 使 用 支持 推测 的 
Tomasulo 算法 (推测 寄存 器 的 值 存储 在 ROB 中 ) 填写 表 3-29 所 示 的 执行 表 。 循 环 内 的 分 支 
(BNEZ) 在 这 两 个 迭代 中 都 预测 为 跳 转 ,不 过 实际 执行 时 ， 它 在 第 一 个 迭代 中 是 不 跳 转 的 
(匹配 ) ,但 在 第 二 个 迭代 中 是 跳 转 的 (不 匹配 )。 由 于 分 支 在 第 一 个 迭代 中 预测 错误 ， 执 行 
过 程 必须 回 滚 。 假 定 ， 预 测 错误 的 分 支 到 达 ROB 顶端 时 进行 处 理 。 在 分 支 达到 ROB 顶部 的 
下 一 个 周期 ，ROB 和 流水 线 后 端 都 被 刷 掉 ， 并 重 置 RAT 表 。 请 给 出 在 执行 表 中 的 所 有 活动 。 
第 一 次 迭代 后 ， 循 环 底部 的 分 支 被 正确 地 预测 为 跳 转 。 

为 了 解决 上 述 问题 ， 建 议 在 ISA 中 增加 一 条 新 的 预测 指令 以 消除 hammock。 新 加 的 指令 如 下 : 


CMOVZ R1,R2,R3 /RL <= RR2' LfR3=0 


使 用 上 面 的 新 指令 重新 编写 循环 代码 来 去 掉 内 部 分 支 科 hammock。 确 保修 改 后 代码 与 原 有 代 
码 得 到 的 结果 相同 ， 此 外 ， 不 会 触发 不 该 发 生 的 异常 。 请 解释 为 什么 新 代码 没有 原 代码 的 性 
能 问题 。 

(d) 在 类 似 于 表 3-29 假设 的 乱 序 执行 处 理 器 中 ， 实 现 谓词 指令 (条件 指令 ) 是 非常 具有 挑战 性 
的 。 一 种 可 能 的 实现 是 等 到 R3 的 值 已 知 时 才 对 CMOVZ 进行 分 发 。 然 而 ， 这 种 方法 效率 不 
高 ， 就 好 像 hammock 中 的 分 支 没有 推测 执行 一 样 , 国 此 效果 也 类 似 于 非 推测 的 Tomasulo 算 
法 。 另 一 方面 ， 当 谓词 寄存 器 的 值 还 未 确定 时 就 调度 谓词 指令 会 很 麻烦 。 请 解释 一 下 会 有 什 
么 问题 ， 并 提出 解决 方案 。 

3. 22 本题 主 要 和 图 3-47 所 示 的 五 级 流水 线 的 VLIW 扩展 相关 。 各 级 流水 线 之 间 的 流水 线 寄存 器 在 图 中 
没有 画 出 ,但 都 存在 并 且 按 和 以 前 一 样 的 方式 进行 命名 ， 如 ID1/EX1。 条 件 分 支 和 无 条 件 跳 转 都 
带 一 个 长 指令 的 延迟 ， 并 且 都 是 在 ID4 阶段 执行 ,这样 跟 在 分 支 指 令 后 的 长 指令 在 取 指 阶段 总 能 
执行 ,无 论 分 支 是 否 跳 转 。 


(c 


_— 


Slot 1 Slot 2 Slot 3 Slot 4 
pe: [sr T wosT 





图 3-47 VLIW 整 型 流水 线 
(a) 基于 以 下 三 种 不 同情 况 分 别 计算 不 同 操作 的 延迟 。 
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3.23 


。 完全 不 支持 前 递 。 

。 只 支持 内 部 寄存 器 的 前 递 。 

。 支持 完全 前 递 (包括 内 部 寄存 器 之 间 的 前 递 ) 。 

需 计算 的 操作 延迟 如 下 : 

e load 到 整 型 操作 (在 寄存 器 ) 。 

e load 到 store (在 内 存 操作 数 和 地 址 寄存 器 ) 。 

。 整 型 操作 到 load 或 者 store (在 地 址 寄存 器 ) 。 

。 整 型 操作 到 分 支 (在 寄存 器 ) 。 

e load 到 分 支 〈 在 寄存 器 ) 。 

这 里 所 讲 的 完全 前 递 ， 是 指 所 有 的 前 递 路 径 ， 前 递 都 只 是 从 流水 线 寄存 器 到 EX 阶段 的 输入 。 
在 完全 前 递 情况 下 计算 指令 到 分 支 的 操作 延迟 时 ， 这 一 点 非常 重要 。 


(b) 再 考虑 如 下 统计 在 值 向 量 中 和 某 个 关键 字 匹 配 次 数 的 代码 : 


SEARCH: LW RS5,0(R3) /Il 读 取 数据 项 
SUB R6,R5,R2 /I2 和 关键 字 比 较 
BNEZ R6,NOMATCH ”/I3 检测 匹配 
ADDI R1,R1,#1 /I4 计算 匹配 次 数 

NOMATCH: ADDI R3,R3,#4 /I5 下 个 数据 项 


直到 所 有 项 检测 完成 
由 于 循环 中 的 分 支 影响 了 代码 的 并 行 化 ， 所 以 我 们 将 其 替换 为 条 件 移动 指令 CMOVZ: 


1 BNE R4,R3,SEARCH /I6 


SEARCH: LW R5,0(R3) /Il 读 取 数据 项 
SUB R6,R5,R2 /I2 和 关键 字 比 较 
ADDI R7,R1,#1 /I3 假设 匹配 
CMOVZ R1,R7,R6 /I4 如 果 匹 配 ，R1 加 1 
ADDI R3,R3,#4 /IS 下 个 数据 项 


BNE R4,R3,SEARCH 


/I6 直到 所 有 项 检测 完成 


为 了 进一步 提高 并 行 性 ， 编 译 器 将 循环 展开 三 次 。 针 对 上 面 的 三 种 不 同 前 递 机 制 ， 请 分 别 给 


出 性 能 最 好 的 VLIW 代码 实现 。 使 用 和 表 
基于 针对 三 次 循环 展开 后 的 调度 ， 请 给 出 
环 体 执行 时 间 计 算 公 式 。 


(e) 


计算 前 级 和 的 操作 输入 是 一 个 向 量 X = (i , X2，2%3y 


Wi » 计算 公式 如 下 : 


将 = 2 
下 面 是 计算 前 级 和 对 应 的 一 个 简单 循环 : 


L.D FO,0(R1) 
L.D F2,-8(R1) 
ADD.D FO,F2,F0 
S.D FO0,-8(R1)/ 
SUBI R1,R1,#8 
BNEZ R1,R2 LOOP 


LOOP: 


O3 


3-19 相同 的 格式 。 
寄存 器 数目 限制 下 三 种 不 同 前 递 机 制 对 应 的 原始 特 


mg 3 输出 向 量 了 = (yi, Vo day 


(= 


R2 的 值 等 于 R1 最 后 的 值 减 8， 使 用 如 图 3-27 和 表 3-17 所 示 的 结构 ， 分 支 始终 预测 为 跳 转 ， 


Ll 数据 cache 始终 命中 。 


(a) 首先 ,我们 在 load/store 队列 中 采用 非常 保守 的 策略 : load 操作 需要 等 到 和 之 前 store 的 所 有 
可 能 冲突 都 确定 时 ， 才 能 发 射 到 cache。 如 果 load 依赖 于 之 前 的 store， 那 么 load 需要 一 直 等 


132 


3. 24 


第 3 了 章 





待 直到 store 更 新 完 cache (不 支持 store 到 load 的 前 递 ) 。 

(b) 其 次 ， 我 们 假设 仍然 采用 同样 的 保守 策略 ， 但 是 支持 store 到 load 的 前 递 : store 结果 一 旦 确 
定 就 会 前 递 给 load。 

(ce) 最 后 ， 在 乐观 策略 下 重复 上 面 的 (b)。 

假设 我 们 对 表 3-3 中 的 每 条 指令 做 一 个 增加 谓词 的 扩展 ， 以 ADD 指令 为 例 ; 


RDD R1, R2, R3 /* R1 <- R2+R3 

这 个 ADD 可 以 描述 为 : 

(R4) ADD R1, R2, R3 /* R1 <- R2+R3 if R4!=0 
/* NOOP if R4 = 0 

(~R4) ADD R1, R2, R3 /* R1 <- R2+R3 if RU 三 站 


/* NOOP if R4!= 0 
同 理 ，load 指令 描述 成 : 
(Ra4) LW RI，0 (R2) /* R1 <- Mem[(R2)+0] if R4!=0 
/* NOOP if R4 = 0 
R4 是 谓词 寄存 器 ， 其 值 不 限定 于 0 或 1。 注 意 ， 谓 词 字段 只 包含 一 个 寄存 器 (没有 表达 式 )。 
每 条 指令 现在 都 有 两 个 版 本 : 有 谓词 的 版 本 和 没有 谓词 的 版 本 。 当 然 ， 此 时 目标 代码 的 格式 也 不 
同 ， 可 能 需要 更 多 的 位 来 表示 (可 能 需要 增加 5 位 来 指定 谓词 寄存 器 ) 。 但 是 ， 这 不 是 本 题 所 关 
心 的 问题 。 当 没有 谓词 寄存 器 时 ， 表 示 该 指令 不 是 谓词 版 本 。 
考虑 如 下 代码 (A，B，C 和 D 是 内 存 中 的 32 位 整 型 字 ) 
if (A>=C&&A>=B) A:= B+C; 
else if(B<=D| |A==C+D) B:=A-C; 
为 了 简化 起 见 ,假设 A，B, C 和 D 的 绝对 地 址 分 别 存储 在 RI1，R2，R3 和 R4 中 。 下 面 是 使 
用 了 分 支 的 基本 指令 集 的 一 种 可 能 代码 序列 : 


TT LW RS5,0(R1) /加 载 A 

13 LW R7,0 (R3) /加 载 C 

I3 SLT R8,R5,R7 /判断 AKC 

I4 LW R6,0 (R2) /加 载 B 

I5 BNEZ R8，else 

I6 SLT R9,R5,R6 

| BNEZ R9, else /判断 A<B 
.aL8 ADD R10,R6,R7 

I9 SW R10,0(RI) 

I10 J exit 

I11 else LW R11,0 (R4) /加 载 D 

工区 SLT R12,R11,R6 

I13 BEZ R12,elsel /判断 DXB 

I14 ADD R13,R7,R11 

I15 BNE RS5,R13,exit /判断 A==C+D 

I16 elsel SUB R14,R5,R7 

na ys SW R14,0 (R2) 

I18 exit 


3.25 


使 用 谓词 和 /或 非 谓词 指令 将 上 述 代 码 翻 译 成 新 的 汇编 代码 ， 不 允许 使 用 条 件 分 支 指令 或 无 
条 件 跳 转 指 令 。 

请 确保 新 的 代码 不 会 引起 本 不 应 该 出 现 的 异常 。 
本 题 分 析 题 3. 24 中 使 用 分 支 和 跳 转 的 代码 版 本 。 
(a) 请 识别 出 代码 中 的 所 有 基本 块 。 
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(b) 请 在 习题 3.22 所 描述 的 VLIW 机 器 上 对 代码 进行 调度 ， 只 能 使 用 局 部 优化 〈 即 基本 块 内 优 
化 ) 。 注 意 ， 分 支 延 迟 一 个 周期 ， 但 是 习题 3.24 的 代码 中 没有 针对 整个 延迟 的 调度 。 

某 个 学 生 在 计算 机 科学 类 项 目 中 设计 了 一 个 简单 的 编译 器 ， 我 们 用 该 编译 器 对 代码 进行 了 全 
局 重新 组 织 ， 如 下 所 示 。 该 学 生 认为 在 获得 相同 结果 的 前 担 下 ， 这 个 版 本 可 以 获得 更 好 的 性 
能 〈 这 段 代码 中 也 没有 考虑 分 支 延 迟 的 问题 ) : 


(c 


—_— 


TE LW RS5,0(R1) /加 载 A 

I2 LW R7,0(R3) /加 载 C 

I3 SLT R8,R5,R7 

a LW R11,0 (R4) /加 载 D 

I12 SLT R12,R11,R6 

I14 ADD R13,R7,R11 

I5 LW R6,0 (R2) / 加载 B 

I6 SLT R9,R5,R6 

I8 ADD R10,R6,R7 

I16 SUB R14,R5,R7 

I4 BNEZ R8, then /判断 AKC 
pry/ BNEZ R9, then /判断 AKB 
二 SW R10,0 (R1) /执行 计 子 名 
I10 J exit 

I13 then BNEZ R12;thenl /判断 D<B 
?as| BNE R5,R13,exit /判断 A==C+D 
117 thenl SW R14,0(R2) /执行 then 子 名 
I18 exit 


这 个 学 生 认 为 上 述 代码 是 正确 的 ， 因 为 内 存 中 的 结果 总 是 和 原始 代码 的 结果 一 致 ， 然 而 ， 这 
个 学 生还 忽略 了 一 些 东西 : 
。 LW 指令 跨越 store 上 移 了 ， 这 会 引起 内 存 冲 突 ; 
。 导致 异常 的 指令 跨越 跳 转 和 分 支 指 令 上 移 了 ， 这 会 引起 控制 冲突 ， 并 且 触 发 本 不 应 该 出 现 的 

异常 。 , 

不 过 还 好 ， 这 个 学 生 没有 跨越 分 支 上 移 store 指令 。( 为 什么 说 这 是 一 件 好 事 ?) 

任何 情况 下 ， 都 需要 一 套 机 制 用 于 检测 并 纠正 内 存 冲突 和 异常 引起 的 问题 。 因 此 ， 我 们 使 用 
和 IA-64 ISA 中 类 似 的 机 制 和 指令 。 

首先 来 看 异常 的 处 理 。 先 假设 除了 load 和 store 外 ， 其 他 指令 不 会 触发 异常 (请 记 住 ，store 
水 远 不 能 推测 执行 )。 当 load (及 其 相关 指令 ) 提升 到 分 支 指 令 前 时 ,load 就 变 成 了 操作 码 为 
LW.s (如 LW.s R1，0(R2)) 的 推测 load 指令 。 由 于 现在 load 是 推测 的 ， 它 本 来 可 能 不 需要 执 
行 ， 因 此 暂时 不 会 发 出 对 程序 可 见 的 异常 信号 。 例 如 ， 缺 页 异常 是 程序 不 可 见 的 ， 但 地 址 不 对 齐 
则 是 程序 可 见 的 。 当 推测 load 引起 这 种 对 程序 可 见 的 异常 时 ，load 指令 通常 返回 一 个 未 定义 值 ， 
从 而 将 目标 寄存 器 标记 为 有 毒 并 将 其 内 容 蔡 换 为 一 个 异常 描述 符 。 在 原始 代码 中 的 LW 位 置 ， 插 
入 格式 为 check.s R1，repair 的 检查 指令 。 如 果 推 测 load 及 其 相关 指令 本 不 应 该 执行 ,那么 
check. s 指令 也 不 执行 。 与 之 相反 ， 如 果 推 测 载 人 指令 本 应 该 执行 的 话 ， 那 么 .check. s 指令 也 执行 
并 查找 寄存 器 。 如 果 寄 存 器 有 效 ， 一 切 照常 并 继续 执行 。 如 果 发 现 寄 存 器 处 于 有 毒 状 态 ， 则 跳 转 
到 修复 代码 执行 ， 修 复 代 码 本 质 上 是 在 非 推 测 状态 下 重新 执行 被 前 移 的 指令 序列 。 这 次 执行 时 将 
会 接受 异常 。 

然后 我 们 使 用 类 似 机 制 处 理 内 存 冲 突 。 当 load 及 其 相关 指令 跨越 一 个 或 多 个 store 操作 前 移 ， 
并 且 编 译 器 无 法 消除 内 存 地 址 歧义 时 ， 该 load 值 变 成 推测 的 ， 同 时 load 操作 变 成 LW.a (例如 ， 
LW.a R1, 0( R2))。 在 原始 代码 的 LW 位 置 ， 搬 入 格式 为 check. a 0( R2)，repair 的 检查 指令 。 该 
指令 需要 结合 被 称 为 先进 load 地 址 表 (ALAT) 的 小 型 硬件 表 一 起 工作 : LW. a 将 其 地 址 插入 
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3. 26 


3. 27 


3. 28 





ALAT 中 ， 如 果 具 有 相同 地 址 的 store 操作 在 LW. a 和 check. a 之 间 执 行 ， 那 么 将 该 地 址 从 ALAT 删 
除 ， 后 续 check. a 可 以 检测 到 这 一 点 。 如 果 由 LW. a 返回 的 值 是 旧 的 ， 那 么 check. a 将 跳 转 到 修复 
代码 ， 主 要 是 重新 执行 load 操作 及 其 相关 指令 。 
请 完成 下 列 操作 : 
。 在 新 的 代码 中 添加 指令 以 检查 错误 推测 【包括 内 存 操作 和 异常 ) ; 
。 对 新 代码 进行 局 部 调度 ， 利 用 上 分 支 和 跳 转 延迟 槽 的 特点 ; 
。 基于 习题 3. 22 的 VLIW 机 器 进行 代码 的 调度 。 

在 所 有 可 能 的 情况 下 ,在 VLIW 机 器 上 的 这 份 新 代码 能 获得 的 加 速 比 是 多 少 ? 支持 推测 load 
操作 的 新 代码 在 什么 时 候 性 能 更 好 ? . 
根据 Amdahl 定律 ， 向 量 处 理 器 还 需要 一 个 快速 的 标量 处 理 器 来 提高 那些 无 法 向 量化 代码 的 执行 
速度 。 一 个 常见 的 向 量 操作 是 两 个 向 量 的 点 积 ， 其 结果 是 一 个 标量 ， 这 种 点 积 操作 是 矩阵 乘法 和 
大 多 数 信号 滤波 中 的 基本 操作 。 两 个 维 数 为 n 的 向 量 X 和 了 的 点 积 由 下 式 给 出 


XY = 它 s 
对 应 的 C 语言 代码 如 下 : 


for(k=0; k<n; k++) p += Xx[k]*y[k]; 


这 段 代码 的 问题 在 于 它 存在 跨 循环 的 依赖 。 不 过 ， 在 有 高 性 能 标量 处 理 器 做 支撑 的 向 量 处 理 
器 中 ， 这 个 算法 的 计算 效率 依然 很 高 。 点 积 中 主要 有 两 种 操作 : 一 个 是 两 个 向 量 相 乘 ， 然 后 是 结 
果 的 累加 。 

在 执行 该 代码 时 ,循环 划分 成 64 个 元 素 的 片段 进行 分 段 开采 ， 每 两 个 输入 向 量 片段 依次 相 
乘 ， 然 后 将 这 些 相 乘 结果 存储 到 结果 向 量 寄 存 器 。 处 理 完 所 有 片段 后 ， 将 结果 向 量 寄存 器 的 64 个 
元 素 加 在 一 起 形成 点 积 结 果 。 为 了 加 快 每 个 片段 的 处 理 ， 我 们 将 向 量 操作 进行 链接 后 并 行 计算 。 
(a) 假设 硬件 结构 与 图 3-41 所 示 的 类 似 ， 总 共有 8 个 向 量 寄存 器 ， 每 个 有 -64 个 元 素 ， 假 定 存储 

体 数量 很 大 〈 例 如 1024) ， 这 样 存储 体 之 间 不 存在 闹 罕 。 访 问 存储 体 的 时 间 是 30 个 周期 ， 步 

长 为 1， 乘 法 流水 线 的 延迟 是 10 个 周期 ， 加 法 流水 线 的 延迟 是 5 个 周期 。， 

请 给 出 使 用 如 3. 7 节 所 示 的 向 量 load 和 算术 指令 处 理 每 个 64 元 素 片段 的 代码 ， 并 计算 点 积 

操作 所 花费 的 时 间 ， 假 定 每 个 向 量 大 小 为 1024 (忽略 最 后 对 元 素 进行 累加 的 标量 处 理 阶 

段 ) 。 

(b) 使 用 相同 的 算法 计算 1024 x 1024 的 矩阵 乘法 需要 多 少 个 时 钟 周期 (忽略 最 后 的 标量 计算 阶 

段 ) 。 

(ec) 将 向 量 循环 展开 两 次 〈 假 设 有 足够 的 向 量 寄存 器 ) ， 给 出 计算 点 积 的 代码 ， 并 计算 1024 x 

1024 矩阵 乘法 〈 忽 略 最 后 的 标量 计算 阶段 ) 所 需 的 时 钟 周 期 数 。 

之 前 我 们 一 直 假设 向 量 处 理 器 配备 的 是 一 个 简单 的 、 交 叉 访问 的 存储 系统 ， 总 共有 4 个 存储 体 ， 
存 取 延迟 为 4 个 周期 , 访问 步 长 为 1。 不过， 在 实际 中 ， 很 可 能 会 有 更 多 的 存储 体 ， 而 且 访问 复 
杂 结 构 的 步 长 也 可 能 会 有 所 不 同 。 
(a) 现在 假设 有 32 个 存储 体 ， 每 个 存储 体 的 存 取 时 间 为 8 个 时 钟 周 期 ， 一 次 只 能 同时 进行 一 个 

向 量 load 或 一 个 向 量 store。 在 采用 如 图 3-40 所 示 的 简单 交叉 存 取 方 案 ， 可 避免 冲突 的 向 量 

步 长 (从 1~32) 是 多 少 ? 通过 将 步 长 对 32 取 模 ， 可 和 否 将 该 结果 类 推 到 所 有 步 长 的 情况 ? 
(b) 假设 有 31 个 存储 体 ， 每 个 存储 体 的 存 取 时 间 为 8 个 时 钟 周期 ， 一 次 只 能 进行 一 个 向 量 load 

或 一 个 向 量 store。 在 采用 如 图 3-40 所 示 的 简单 交叉 存 取 方案 的 前 提 下 ， 可 避免 冲突 的 向 量 

步 长 (从 1~31) 是 多 少 ? 通过 将 步 长 对 31 取 模 ， 可 和 否 将 结果 类 推 到 所 有 步 长 的 情况 ? 

(e) 车 使 用 31 个 存储 体 而 不 是 32 个 ;有 什么 优点 和 缺点 ? 
并 非 所 有 向 量 机 都 是 load/store 类 型 的 。 事 实 上 ， 第 一 台 向 量 机 一 CDC Star-100 (由 现 已 解散 的 
CDC 公司 建 于 20 世纪 70 年 代 初 ) 就 是 一 个 纯粹 的 内 存 到 内 存 模式 的 向 量 机 。 输 入 向 量 从 内 存 直 
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接 流入 流水 线 单元 ， 并 将 结果 直接 流 回 内 存 。 这 种 风格 的 架构 访 存 非常 频繁 ， 数 据 在 内 存 中 的 来 
回 移动 导致 了 巨大 的 延迟 。 尽 管 在 20 世纪 80 年 代 初 ，CDC Star- 100 进一步 升级 为 CDC Cyber- 
205， 但 是 这 种 类 型 的 机 器 最 终 还 是 被 Cray 公司 的 机 器 (load/store 向 量 机 ) 所 取代 (从 1976 年 
的 Cray-1 开始 ) 。 在 Cyber-205 机 器 中 ， 从 内 存 取 的 向 量 元 素 允 许 有 64K 个 之 多 。 

内 存 到 内 存 的 向 量 机 不 能 像 习题 3. 26 那样 对 向 量 寄存 器 中 的 点 积 部 分 结果 进行 累加 。 相 反 ， 它 们 
要 在 输入 操作 数 从 内 存 流 到 向 量 单元 的 “传输 过 程 中 ”完成 点 积 计 算 。 因 为 点 积 是 非常 重要 的 操 
作 ， 所 以 可 以 为 它 专门 设计 一 个 特殊 的 功能 单元 ， 如 图 3-48 所 示 。 


专用 电路 
于 加 法 流水 级 四 
( 8 stages ) 





图 3-48 ”内存 到 内 存 向 量 机 上 的 点 积 计算 功能 单元 


(a) 使 用 图 3-48 中 的 功能 架构 ， 说 明 如 何 计 算 两 个 64K 向 量 的 点 积 (从 开始 到 结束 ， 包 括 在 专 
用 电路 中 的 行为 ) 。 描 述 执行 的 各 个 阶段 并 解释 应 该 如 何 逐 个 时 钟 周期 地 对 流水 线 进 行 控 制 。 

(b) 完成 计算 的 电路 (图 中 的 cireuit) 非常 简单 。 请 描述 该 模块 主要 用 于 做 什么 ， 并 绘制 出 可 能 
的 硬 御 结构 框图 。 

(c) 假设 内 存 访问 时 间 为 100 个 周期 ， 并 考虑 在 特殊 电路 上 花费 的 时 钟 周期 ， 再 加 上 存储 到 目标 
寄存 器 所 花费 的 时 钟 周期 ， 那 么 计算 两 个 长 度 为 64K 向 量 的 点 积 总 共 需 要 多 少 个 时 钟 周期 ? 
假设 访问 交叉 存储 时 没有 冲突 。 

(d) 通常 我 们 用 入 来 表示 内 存 向 量 的 长 度 。 那 么 执行 长 度 为 N 的 两 个 向 量 的 点 积 需要 多 少 个 周 
期 ? 如 果 想 要 至 少 达 到 64K 向 量 点 积 性 能 的 一 半 以 上 ， 那 么 最 小 的 向 量 长 度 是 多 少 ? 

(e) 对 比 本 题 的 向 量 实现 方式 和 3.3.2 节 所 示 的 静态 流水 线 方式 。 假 定 现在 有 3 个 并 行 流水 线 ， 
一 个 用 于 load/store/ 分 支 / 整 型 ， 一 个 用 于 浮 点 加 法 ， 一 个 用 于 浮 点 乘法 。 不 过 考虑 到 习题 
3. 25 代码 中 的 跨 循环 依赖 ， 我 们 无 法 通过 循环 展开 获得 太 多 的 加 速 。 因 此 ， 在 最 好 的 情况 下 
(假定 cache 都 命中 ) ， 静 态 流 水 线 的 最 小 延迟 大 约 是 

3(loads) + 10(multiply) + 8(add) + 2(address + branch) = 23 时 钟 周期 / 循环 迭代 
基于 上 面 所 提供 的 数据 ,为 了 使 向 量 实现 方式 一 定 快 于 标量 机 ， 最 小 的 向 量 长 度 入 应 该 是 多 少 ? 
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存储 层次 





4.1 概述 


随 着 处 理 器 、 内 存 (DRAM) 以 及 二 级 存储 (硬盘 )\ 之 间 的 速度 差距 不 断 增 大 ， 在 保证 应 
用 程序 不 断 增长 的 存储 需求 得 到 满足 的 前 提 下 ， 我 们 已 经 很 难 跟 上 处 理 器 的 速度 来 提供 指令 和 
数据 了 。 现 代 系 统 中 所 用 的 存储 层次 主要 考虑 速度 、 容 量 和 成 本 等 因素 ,图 4-1 给 出 了 一 种 常 
见 的 存储 层次 结构 ， 虚 线 左 边 是 高 速 缓存 层次 (cache hierachy) ， 右 边 是 虚拟 存储 层次 (virtual 
memory hierachy) ， 虚 拟 存储 层次 中 可 能 会 包含 硬盘 缓存 (图 中 未 画 出 )。 


200 ns 





图 4-1 带 有 3 级 高 速 缓存 的 典型 存储 层次 


近年 来 ， 人 们 发 现 处 理 器 的 速度 〈 主 频 几 GHz， 一 个 时 钟 周 期 可 以 执行 多 条 指令 ) 同 主 存 
的 速度 (一 次 访问 需要 几 十 到 几 百 ns) 之 间 的 差距 在 呈 指 数 增长 ， 这 一 问题 通常 称 为 存储 墙 
问题 。 不 同 容 量 和 访问 速度 的 多 级 cache 组 成 的 层次 结构 就 是 用 来 缩小 这 个 差距 的 。 此 外 ， 每 
一 级 的 cache 也 变 得 越 来 越 复 杂 ， 以 减少 cache miss 时 的 开销 。 如 今 的 动态 乱 序 执行 处 理 器 在 
任何 时 刻 都 可 能 存在 十 多 个 待 处理 的 访 存 操作 ， 为 了 支持 这 一 场景 ， 现 在 的 非 阻 塞 (lockup- 
free， 或 者 电 non-blocking) cache 可 以 在 同一 时 刻 处 理 多 个 cache 命中 和 未 命中 的 情况 。 同 时 ， 
指令 和 数据 也 会 在 真正 被 用 到 之 前 就 被 预 取 到 cache 中 。 在 本 章 ， 我 们 将 讨论 这 些 针 对 cache 
设计 的 优化 。 

在 多 处 理 器 和 多 核 系 统 中 ， 存 储 墙 的 问题 更 加 严重 ， 因 为 存在 对 共享 资源 的 竞争 、 一 致 性 
的 维护 ， 以 及 互连网 络 引 起 的 延迟 等 。 因 此 ， 人 们 尝试 开发 对 存储 一 致 性 模型 (将 在 第 7 章 中 : 
介绍 ) 的 放松 以 及 内 存 推 测 技 术 等 ， 以 便 尽 可 能 多 地 隐藏 内 存 访问 的 开销 ， 从 而 减少 其 对 处 理 
器 执行 速度 的 影响 。 在 本 章 ， 我 们 只 考虑 单 核 系统 的 存储 层次 。 

cache 是 由 cache 行 组 成 的 ， 任 何 时 刻 ， 一 个 cache 行 可 以 保存 一 个 同 它 大 小 相同 的 内 存 
块 。 由 于 cache 比 主 存 小 很 多 ， 多 个 内 存 块 会 共享 一 个 cache 行 ， 在 不 同时 刻 可 能 保存 不 同 的 
内 存 块 。 内 存 块 和 cache 行 之 间 的 映射 关系 是 cache 的 重要 特征 。 当 处 理 器 在 某 一 级 cache 中 找 
到 访问 的 地 址 单元 时 ， 我 们 称 为 cache 命中 ， 当 处 理 器 无 法 找到 访问 的 地 址 单元 时 ， 称 为 cache 
失效 。 

主 存 和 硬盘 之 间 的 速度 差 比 处 理 器 和 主 存 之 间 的 速度 差 要 大 得 多 ， 这 是 因为 内 存 以 电子 设 
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备 速度 在 工作 (ns 级 ) 而 磁盘 以 机 械 运动 速度 在 工作 (ms 级 )。 磁 盘 空 间 被 划分 为 两 部 分 : 
文件 系统 区 和 虚拟 内 存 系统 区 。 文 件 系统 区 保存 了 存储 的 代码 和 数据 ， 文 件 可 以 被 应 用 程序 显 
式 地 打开 、 读 写 以 及 关闭 。 磁 盘 上 的 虚拟 内 存 系统 区 作为 主 存 的 备份 ， 就 好 像 主 存 是 磁盘 上 虚 
存 空间 的 cache。 虚 存 通 常 由 操作 系统 以 及 内 核 以 软件 方式 管理 ， 因 此 虚 存 管理 是 操作 系统 层 
面 的 问题 ， 并 不 是 体系 结构 层面 的 问题 ; 在 本 书 中 ,我 们 主要 关注 体系 结构 对 虚 存 的 支持 以 及 
同 虚 存 软件 之 间 的 硬件 交互 。 

主 存 按 照 物 理 页 帧 进行 组 织 。 任 意 时 刻 ， 一 个 物理 页 帧 可 以 保存 同样 大 小 的 一 个 页 
《page) 。 进 程 可 以 访问 的 虚 存 空间 也 被 组 织 成 页 的 形式 ， 所 有 的 活动 页 在 磁盘 上 都 有 备份 ， 并 
且 在 某 一 时 刻 可 能 在 主 存 的 页 帧 中 。 当 处 理 器 访问 的 地 址 单元 在 主 存 中 时 ， 称 为 页 命中 ， 无 需 
软件 参与 就 可 以 将 该 单元 内 容 返回 给 处 理 器 。 相 反 ， 当 地 址 单元 不 在 主 存 中 时 称 为 缺 页 ， 需 要 
内 核 进程 将 页 调 人 主 存 页 帧 中 。 

在 本 章 中 ， 我 们 将 介绍 以 下 内 容 : 

。 存储 层次 的 概念 ， 访 存 局 部 性 原理 ， 存 储 层次 中 的 一 致 性 问题 ，cache 和 内 存 包 含 ， 这 

些 将 在 4. 2 节 中 讲解 。 

s cache 层次 ，cache 映射 和 访问 ， 替 换 和 写 策 略 ，cache 失效 的 分 类 ， 高 性 能 cache ( 非 

阻塞 cache ，cache 预 取 和 预 加 载 ) ， 这 些 内 容 将 在 4. 3 节 中 讲解 。 

。 虚 存 的 硬件 支持 ， 页 表 和 旁 路 转换 缓冲 ， 虚 地 址 cache， 这 些 将 在 4.4 节 中 讲解 。 


4. 2 金字塔 形 存储 层次 


图 4-2 中 给 出 了 一 个 存储 层次 的 示意 图 ， 金 字 塔 的 形状 反映 了 不 同 层次 存储 的 容量 。CPU 
及 寄存 器 组 在 金字 塔 顶 端 ， 作 为 第 0 层 ， 大 容量 存储 器 (硬盘 ) 在 金字 塔 底 端 。 寄 存 器 组 容量 
小 ， 集 成 在 处 理 器 中 ， 并且 为 了 提高 速度 进行 优化 ， 可 以 在 1 或 2 个 周期 内 完成 访问 。 寄 存 器 
内 容 被 编译 器 离线 管理 ， 静 态 调度 从 内 存 加 载 或 存储 到 内 存 中 。 寄 存 器 并 不 看 作 真 正 的 存储 
器 ， 因 为 处 理 器 通过 寄存 器 号 而 不 是 通过 内 存 地 址 访问 它们 。 





Ln 一 1( 主 存 -DRAM ) 
Ln ( 二 级 存储 -磁盘 ) 


图 4-2 金字塔 形 存储 层次 
从 金字 塔 顶端 往 底 端 看 ， 中 间 的 几 级 cache 缩短 了 处 理 器 和 内 存 之 间 的 速度 差 。 cache 是 动 


态 加 载 处 理 器 访问 内 存单 元 的 高 速 缓存 。 一 般 一 级 cache (LI) 和 二 级 cache (12) 是 片上 的 ， 
其 他 层级 的 cache 是 片 外 的 。 为 了 支持 数据 访问 和 取 指 令 的 重 又 ，L1 cache 通常 会 拆 分 成 独立 
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的 指令 cache 和 数据 cache 〈 这 种 结构 也 称 为 “哈佛 cache” ) ， 而 低层 次 的 cache 则 一 般 是 混合 
cache ( 既 包 括 指令 也 包括 数据 ， 这 种 结构 也 称 作 “普林斯顿 cache”) 。L1L 和 L2 cache 一 般 由 
高 速 SRAM 阵列 组 成 ，L3 和 I4 cache 则 可 能 是 由 DRAM 阵列 组 成 。 在 这 种 分 层 cache 结构 中 ， 
通常 cache 容量 越 大 ， 就 越 有 可 能 包含 所 需 访 问 的 地 址 单元 ， 但 是 访问 速度 也 会 越 慢 。 大 容量 
cache 之 所 以 速度 较 慢 是 因为 访问 时 间 主 要 取决 于 连 线 延迟 (地 址 线 、 行 选 线 、 列 选 线 ) ， 这 些 
连 线 延迟 很 难 随 着 技术 进步 而 缩短 。 此 外 ， 大 容量 的 存储 器 需要 更 大 的 译 码 器 和 多 选 器 ， 这 也 
导致 速度 变 慢 。 所 有 层次 的 cache 存储 器 都 是 由 硬件 直接 管理 的 。 

注意 我 们 对 cache 层级 的 编号 : 第 工 级 在 最 上 边 ， 沿 着 金字 塔 向 下 ， 级 数 编号 逐渐 增加 。 
此 外 ， 我 们 还 将 使 用 “上 一 级 ”或 “下 一 级 ”表示 在 金字 塔 中 的 位 置 。 在 最 后 一 级 cache 的 下 
面 是 主 存 ， 它 包含 了 处 理 器 所 要 访问 的 所 有 指令 和 数据 。 

金字 塔 的 底部 一 级 的 管理 与 cache 不 同 ， 主 存 和 二 级 存储 之 间 的 虚 存 管理 问题 要 追随 到 20 
世纪 70 年 代 虚 存 的 提出 。 为 了 使 CPU 在 执行 磁盘 LO 操作 时 也 尽 可 能 忙碌 ,分 时 操作 系统 支 
持 将 处 理 器 在 多 个 进程 之 间 进 行 分 时 复 用 。CPU 进程 的 调度 和 虚 存 的 管理 交 由 操作 系统 的 内 核 
程序 负责 。 


4.2.1 访 存 局 部 性 


cache 和 虚 存 之 所 以 能 够 成 功 ， 是 由 于 通常 程序 执行 过 程 中 都 有 访 存 局 部 性 这 一 特点 。 如 
果 程 序 访 存 是 随机 的 ， 那么 cache 和 主 存 的 效率 将 难以 接受 ,这 样 缓存 和 虚 存 也 就 不 会 有 效 。 
幸运 的 是 ， 在 任意 一 段 时 间 内 程序 通常 都 只 会 访问 其 内 存 空间 中 的 一 小 部 分 。 例 如 ， 一 个 进程 
在 主 程序 中 开始 ， 然 后 跳 到 了 不 同 的 程序 和 代码 段 ， 这 些 程序 和 代码 段 都 访问 自己 的 数据 集 。 
每 个 程序 中 都 会 包括 一 些 循环 反复 访问 自己 的 代码 和 数据 。 因 此 ， 在 任意 时 刻 ， 一 个 进程 访问 
的 内 存单 元 (也 称 作 工 作 集 ) 虽然 随 着 时 间 一 直 在 变化 ， 但 是 通常 会 限定 在 某 个 代码 段 、 程 
序 段 或 循环 中 。 在 任意 时 刻 ， 处 理 器 只 会 访问 工作 集中 的 地 址 ， 进 程 执行 其 代码 的 某 部 分 ， 由 
于 这 部 分 代码 处 在 当前 工作 集中 ，cache 和 主 存 的 失效 率 就 会 相对 较 低 。 当 进程 从 代码 的 一 部 
分 转 而 执行 到 另 一 部 分 时 ， 会 导致 工作 集 的 突然 变动 。 当 发 生 突然 变动 时 ， 需 要 访问 新 的 存储 
区 ，cache 和 内 存 的 失效 率 可 能 就 会 变 高 。 之 前 工作 集中 缓存 的 块 和 内 存 页 必须 被 替换 掉 ， 从 
而 给 新 的 工作 集 留 出 空间 。 

程序 的 这 种 典型 访 存 行 为 可 以 通过 局 部 性 原理 来 解释 。 有 两 种 局 部 性 : 时 间 局 部 性 和 空间 
局 部 性 。 时 间 局 部 性 是 指 对 同一 个 地 址 的 连续 访问 : 如 果 一 个 地 址 刚 被 访问 过 ， 那 么 很 可 能 在 
很 短 的 一 段 时 间 内 它 会 再 次 被 访问 。 空 间 局 部 性 是 指 同 访问 地 址 接近 的 那些 地 址 单元 : 如 果 一 
个 地 址 被 访问 ， 那 么 很 可 能 在 很 短 的 一 段 时 间 内 ， 它 附近 的 单元 也 会 被 访问 。 由 于 cache 和 主 
存 都 是 按照 连续 的 块 进行 组 织 的 ， 地 址 的 空间 局 部 性 会 变 成 块 或 页 的 时 间 局 部 性 。 因 此 ， 访 问 
局 部 性 是 代码 片段 中 非常 重要 的 一 个 特性 ， 程 序 员 / 编 译 器 要 尽 可 能 利用 这 个 局 部 性 来 提高 访 
存 速度 。 


4.2.2 存储 层次 中 的 一 致 性 


存储 一 致 性 是 所 有 存储 层次 的 一 个 基本 属性 ,并 且 在 多 处 理 需 中 更 为 关键 。 不 过 ， 考 虑 到 
单 核 中 也 有 很 多 对 cache 层次 的 优化 ， 因 此 在 单 核 系统 中 ， 一 致 性 问题 也 是 一 个 值得 关注 的 问 
题 。 任 何 对 单 核 系统 的 cache 优化 方法 都 应 以 确保 一 致 性 为 前 提 。“ 一 致 性 ”并 不 是 说 在 所 有 
时 刻 同 一 个 存储 地 址 的 拷贝 都 要 完全 一 样 ， 就 好 像 整 个 存储 系统 是 完全 统一 的 。 

在 单 核 系统 中 ， 指 令 可 能 会 乱 序 执行 或 推测 执行 ，cache 可 能 是 写 穿 透 的 或 者 是 写 回 并 且 
无 阻塞 的 ， 但 是 我 们 必须 保证 最 后 的 执行 结果 同 按照 指令 序 一 条 一 条 执行 后 的 结果 是 完全 一 样 
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的 。 具 体 来 讲 ， 无 论 存储 层次 怎样 ， 一 个 load 必须 总 是 返回 对 同一 个 地 址 上 一 次 store 的 值 
(按照 程序 序 ) 。 这 就 是 单 核 系统 中 一 致 性 的 定义 。 

当 存储 层次 更 新 时 ， 为 了 维护 一 致 性 ， 这 个 更 新 必须 要 传播 到 低级 存储 中 。 如 果 cache 是 
写 穿 透 的 ， 所 有 对 cache 的 更 新 都 要 传播 到 低级 存储 中 ， 如 果 cache 是 写 回 的 ， 则 当 cache 行 中 
的 块 被 蔡 换 掉 时 ， 需 要 将 更 新 后 的 内 容 写 回 下 一 级 。 


4.2.3 存储 包含 


由 于 处 理 器 只 能 访问 主 存 中 的 地 址 单元 ， 任 何 一 个 被 访问 的 指令 或 数据 都 必须 在 主 存 中 。 
因此 任何 一 级 cache 中 的 块 在 主 存 中 都 要 有 备份 ， 即 cache 中 的 任何 内 容 都 要 包含 在 主 存 中 。 
而 cache 是 否 包 含 上 一 级 cache 的 内 容 则 不 是 必须 的 ， 可 以 进行 设计 选择 。 我 们 称 j 级 cache 包 
含 i 级 cache (J >i) ， 如 果 满 足以 下 条 件 : 

。 任何 缓存 在 i 级 cache 中 的 内 容 也 都 缓存 在 j 级 cache; 

e j 级 cache 中 的 状态 包含 i 级 cache 的 状态 。 

第 二 点 表示 访问 i 级 cache 的 权限 要 么 同 j 级 相同 ,要么 比 j 级 严格 。 例 如 ， 如 果 i 级 cache 
的 备份 是 可 读 可 写 的 ， 那 么 这 个 备份 在 j 级 也 必须 可 读 可 写 。 如 果 备 份 在 j 级 是 只 读 的 ， 那么 
在 i 级 就 不 能 是 可 写 的 。 | 

cache 层级 之 间 的 包含 关系 是 一 个 很 有 用 的 特性 ， 尤 其 是 在 维护 一 致 性 方面 。 在 单 核 系统 
中 ， 包 含 关 系 有 利于 更 新 向 低级 别 cache 的 传播 。 在 多 处 理 器 系统 中 ， 如 果 j 级 cache 中 没有 需 
要 的 数据 ， 就 不 需要 查看 i 级 cache 了 。 为 了 维护 包含 关系 ， 每 次 j 级 cache 的 备份 被 替换 时 ,i 
级 中 相应 的 备份 也 都 要 被 无 效 掉 。 此 外 ， 无 论 何 时 一 个 块 被 取 到 i 级 cache， 它 必须 也 要 被 取 到 
低 于 i 级 的 所 有 cache 中 。 包 含 关系 的 一 个 主要 缺点 是 ， 处 理 器 节点 所 能 缓存 的 总 空间 受 限于 
cache 层次 中 较 低级 cache 的 容量 大 小 。 

为 了 防止 缓存 空间 的 浪费 ， 有 的 cache 层次 之 间 采 用 互 斥 (exclusion) 关系 。 如 果 保 持 
cache 互 斥 ， 当 i<j 时 ,i 级 cache 中 的 块 就 不 会 出 现在 j 级 cache 中 。 因 此 处 理 器 节点 总 共 的 缓 
存 空 间 就 是 节点 中 所 有 缓存 空间 之 和 。 为 了 保证 互 斥 ， 每 当 数 据 块 取 到 1 级 cache (发 生 miss) 
时 ， 所 有 低 于 1 级 的 cache 中 对 应 的 该 数据 块 都 要 被 无 效 。 此 外 ， 如 果 一 个 块 从 1 级 被 换 出 ， 它 
可 以 分 配 到 最 接近 1 的 更 低 一 级 cache 中 。 

当然 ， 我 们 也 可 以 不 维护 cache 的 包含 和 互 斥 关系 。 这 样 ， 某 一 级 内 存 块 的 分 配 和 替换 不 
会 影响 其 他 级 cache。 但 是 ， 除 了 简化 控制 cache 的 硬件 之 外 ， 这 种 做 法 并 不 会 带 来 其 他 明显 的 
好 处 。 在 本 书 中 ， 如 果 不 特 别 强调 ， 我 们 默认 维护 了 cache 的 包含 关系 。 


4.3 cache 层次 
cache 行为 主要 的 影响 因素 是 cache 大 小 以 及 内 存 块 到 cache 行 的 映射 方式 。 


4. 3.1 cache 映射 及 组 织 方 式 


由 于 cache 的 容量 远 小 于 主 存 ,在 不 同时 刻 ， 每 个 cache 行 必 须 可 以 存放 多 个 内 存 块 。 
cache 由 两 部 分 存储 体 组 成 : 目录 存储 和 数据 存储 。 目 录 存 储 包 括 当前 存储 在 每 个 cache 行 中 的 
内 存 块 标 识 (ID 或 tag) 以 及 一 些 状 态 位 。 状 态 位 中 至 少 要 有 一 个 有 效 位 (V，rvalid bit) ， 有 
效 位 指明 cache 行 中 的 数据 是 否 有 效 ， 并 且 可 以 在 某 些 时 刻 被 置 为 无 效 状态 。 随 着 讲解 的 深 
入 ， 每 个 目录 项 中 会 增加 更 多 的 状态 位 。 数 据 存 储 中 包括 了 内 存 块 的 备份 。 

内 存 块 与 cache 行 之 间 的 映射 是 基于 块 地 址 的 。 物 理 内 存 地 址 被 分 为 两 部 分 : 内 存 块 地 址 
以 及 块 内 偏 移 ， 如 图 4-3 所 示 。 在 按 字 节 寻 址 的 内 存 中 ，cache 行内 和 内 存 块 内 的 字 节 偏 移 是 
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相同 的 。 
物理 地 址 


内 存 块 地 址 块 内 偏 移 
块 内 信和 


图 4-3 访问 直接 映射 cache 的 地 址 域 


cache 映射 方式 有 三 种 : 直接 映射 、 组 相 联 映射 和 全 相 联 映射 。 
直接 映射 cache 
在 直接 映射 cache 中 ， 对 于 一 个 给 定 的 内 存 块 总 会 映射 到 同一 个 cache 行 中 ， 通 过 险 希 
(hash) 块 地 址 的 方法 就 可 以 得 到 这 个 cache 行 的 位 置 。 尽 管 有 很 多 哈 希 方法 ， 但 是 最 简单 
的 一 种 方法 是 位 选择 哈 希 ， 这 种 方法 通过 块 地址 的 某 些 位 来 选择 cache 行 。 由 于 指令 和 数据 
的 访问 有 局 部 性 ， 因 此 通常 用 块 地 址 的 最 低 几 位 来 选择 cache 行 ， 见 图 4-3 中 的 cache 索引 
位 。 剩 余 的 几 位 〈 块 地 址 的 最 高 几 位 ) 形成 存储 在 cache 行 中 的 内 存 块 标 识 ， 并 被 存储 在 目 
录 中 。 
图 4-4 给 出 了 直接 映射 的 cache 架构 以 及 访问 方法 。 图 4-4a 给 出 的 是 罕 cache 的 情况 ， 数 
据 存储 的 宽度 是 一 个 字 。 由 于 本 例 中 cache 行 大 小 是 两 个 字 ， 因 此 数据 存储 的 高 度 是 目录 存储 
的 两 倍 。 一 般 来 讲 ， 数 据 存 储 的 高 度 与 目录 存储 的 高 度 比 为 到 =2"， 其 中 , 下 是 一 行 中 的 字 
数 。 给 定 块 大 小 为 B=2", 行 数 为 $=2'， 每 个 物理 地 址 的 位 数 为 N=2"， 则 识别 cache 行 的 标 
识 位 为 na-s-b。 下 面 给 出 了 读 访 问 所 需 的 两 步 操 作 。 
e cache 索引 (cache indexing)。 通 过 块 地 址 的 最 低 s 位， 可 以 取 到 目录 项 ， 同 时， 可 以 
通过 块 地 址 的 最 低 * 位 以 及 块 偏 移 的 最 高 w 位 取 到 数据 存储 。cache 索引 的 速度 与 标准 
SRAM 访问 速度 相同 。 
。 标识 检查 (tag checking) 。 将 索引 到 的 cache 行 的 目录 标识 与 块 地 址 的 最 高 几 位 进行 比 
较 ， 并 且 也 要 检查 状态 位 〈 比 如 有 效 位 ) 。 如 果 标 识 匹配 并 且 状 态 位 与 访问 行为 一 致 ， 
数据 就 可 以 被 传递 给 下 一 级 (cache 命中 ) ， 否 则 会 触发 cache 失效 。 





tag line # block offset tag line # block offset 
” a) 窄 cache b ) 宽 cache 


图 4-4 直接 映射 cache 的 索引 


尽管 cache 中 的 数据 存储 行 可 以 小 于 一 个 字 , 但 实际 设计 中 并 不 提倡 这 么 做 ， 因 为 一 次 
cache 命中 需要 访问 不 止 一 次 数据 存储 才 可 以 取出 需要 的 字 。 图 4-4b 给 出 了 宽 cache 的 示意 图 : 
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数据 存储 的 宽度 是 整个 行 ， 因 此 目录 存储 和 数据 存储 的 高 度 相 同 。 目 录 和 数据 存储 都 可 以 通过 
块 地 址 的 低 s 位 索引 到 。 宽 cache 的 主要 优点 是 ， 当 cache 失效 时 ， 只 需要 一 个 数据 存储 访问 周 
期 就 可 以 重新 加 载 失 效 块 ， 而 在 窗 cache 中 ， 需 要 WW 个 周期 才 可 以 完成 重 加 载 。 由 于 块 是 访问 
一 个 cache 行 的 最 大 单位 ， 因 此 需要 将 cache 的 宽度 设计 成 比 整个 行 的 大 小 宽 一 些 。 人 和 但 是 ， 为 
了 减少 设计 宽 cache 的 复杂 度 ， 需 要 在 重 载 失效 块 的 耗 时 与 设计 复杂 度 之 间 进 行 协 调 ， 选 择 适 
当 的 cache 宽度 。 在 这 种 情况 下 ， 用 多 少 位 作为 块 偏 移 取决 于 数据 存储 中 一 行 有 多 少 字 。 

组 相 联 cache 

直接 映射 cache 的 最 优点 处 是 cache 命中 时 的 开销 小 ， 而 它 最 大 的 缺点 就 是 将 块 映 射 到 固 
定 的 cache 行 。 内 存 块 中 有 很 多 块 会 被 映射 到 同一 个 cache 行 ， 当 多 个 内 存 块 竞争 一 个 cache 行 
时 会 导致 很 高 的 失效 率 。 为 了 缓解 这 个 问题 ， 又 要 保证 cache 的 简单 以 及 命中 时 的 低 开 销 ， 绝 
大 多 数 cache 都 采用 组 相 联 的 方式 。 组 相 联 cache 将 几 个 cache 行 分 为 一 组 ， 对 每 组 的 映射 是 直 
接 映射 ， 但 是 一 个 块 可 以 被 放 在 组 内 的 任何 一 个 行 中 。 

4-5 给 出 三 路 组 相 联 cache 的 架构 ， 也 就 是 说 ， 每 个 cache 组 包括 3 个 eache 行 。 组 数 为 
S$=2 ， 所 有 相 联 的 路 就 是 图 4-4a 或 b ( 罕 cache 或 宽 cache， 或 介 于 两 者 之 间 ) 中 的 cache 片 ， 
每 片 按照 图 4-4 中 的 方式 索引 。 利 用 内 存 地 址 的 8 和 s+w 位 ， 同 时 分 别 ( 在 罕 cache 片 的 情况 
下 ) 取得 3 个 目录 项 和 数据 存储 块 。 接 下 来 将 每 片 的 块 地 址 标识 与 3- 个 目录 项 进行 比较 ,每 片 
返回 命中 或 失效 ， 然 后 触发 失效 或 在 命中 的 片 中 选取 需要 的 字 。 直 接 映射 cache 可 以 被 看 作 一 
路 组 相 联 的 cache。 





tag line # block offset 
4-5 三 路 组 相 联 cache 


对 于 组 相 联 的 读 访问 ,目录 和 数据 存储 的 索引 是 并 行进 行 的 , 但 是 写 访问 则 不 同 。 在 更 新 
数据 存储 的 同时 不 能 同时 读 取 目录 项 ， 因 为 在 cache 失效 的 情况 下 ， 这 个 cache 行 是 不 应 该 被 
修改 的 。 因 此 写 访问 至 少 需要 两 个 周期 : 一 个 周期 检查 标识 来 判断 是 否 命中 ， 一 个 周期 进行 写 
操作 。 当 写 操 作 是 突 发 式 的 (burst) 时 ， 这 两 个 周期 可 以 流水 化 。 - 

通常 ,一 个 入 路 组 相 联 中 会 出 现 “ 热 点 组 ”"， 热 点 组 是 指 超过 NN 个 内 存 访问 产生 竞争 。 典 
型 的 cache 相 联 度 在 2 ~ 8 之 间 ， 如 果 超 过 8 路 ， 并 行 访问 各 directory (CAM) data 
片 以 及 判断 命中 /失效 的 逻辑 部 件 会 变 得 很 慢 并 且 十 分 复杂 ， 
并 且 对 命中 率 几 乎 没有 什么 提高 。 为 了 避免 热点 组 的 出 现 ， 
可 以 把 cache 做 成 全 相 联 的 ， 即 组 大 小 就 是 整个 cache 的 
大 小 。 





全 相 联 cache 
全 相 联 cache 的 结构 与 组 相 联 cache 很 不 相同 ， 如 图 4-6 
所 示 。 在 全 相 联 cache 中 ， 一 个 内 存 块 可 以 被 映射 到 任何 一 个 tag block offset 


cache 行 ， 因 此 不 需要 通过 若干 位 来 限制 对 cache 的 搜索 ， 目 图 4-6 ”全 相 联 ‘Cache 
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录 的 标识 是 整个 块 地 址 。 为 了 找到 需要 的 块 ， 要 对 所 有 目录 项 并 行 地 进行 比较 。 

读 或 写 访问 都 需要 两 步 。 首 先 将 块 地 址 标识 〈 即 整个 块 地 址 ) 与 全 部 目录 项 的 标识 进行 
比较 。 为 了 完成 比较 ， 目 录 被 设计 成 基于 内 容 寻 址 的 存储 器 ( Content- Addressable Memory， 
CAM) 。RAM 与 CAM 之 间 的 不 同 在 于 ，RAM 是 按 地 址 访问 的 ， 而 CAM 按照 其 内 容 的 某 个 域 
(在 全 相 联 cache 中 ， 这 个 域 就 是 块 地 址 ) 来 访问 。 标 识 总 线 贯 穿 整个 目录 ， 线 上 的 标识 会 并 
行 地 与 每 个 目录 的 标识 进行 比较 。 这 一 比较 操作 由 每 个 目录 项 中 的 比较 器 完成 。 

如 果 某 个 比较 器 检查 出 标识 匹配 ， 对 应 的 数据 存储 行 就 被 激活 ， 然 后 返回 对 应 的 数据 。 注 
意 ， 不 能 像 组 相 联 cache 那样 将 目录 检查 与 取 数据 并 行进 行 。 此 外 ， 目 录 访 问 (CAM 访问 包括 
信号 在 整个 目录 中 的 传播 以 及 逻辑 比较 ) 要 比 RAM 访问 慢 (需要 地 址 译 码 )。 由 于 全 相 联 
cache 中 的 每 个 目录 项 都 需要 一 个 比较 器 ， 它 的 密度 要 小 于 RAM。 全 相 联 cache 的 优点 在 于 ， 
由 于 内 存 块 到 cache 的 映射 是 灵活 可 变 的 ， 与 组 相 联 相 比 ， 其 命中 率 会 高 一 些 。 因 此 ， 在 小 一 
些 的 cache 中 全 相 联 cache 更 受 欢 迎 ， 因 为 在 这 类 cache 中 热点 组 的 竞争 会 影响 系统 的 性 能 。 全 
相 联 cache 可 以 看 作 只 有 一 个 组 的 组 相 联 cache。 


4. 3.2 替换 策略 


当 访 问 某 个 不 在 cache 中 的 内 存 块 时 ， 该 访问 会 触发 cache 失效 并 选择 一 个 换 出 块 进行 蔡 
换 。 换 出 块 所 在 的 :cache 行 必须 是 失效 块 的 地 址 所 映射 到 的 cache 行 。 在 直接 映射 cache 中 ,一 
个 失效 块 只 能 被 映射 到 唯一 的 cache 行 ， 因 此 换 出 块 就 很 容易 确定 了 。 但 是 ， 在 组 相 联 cache 
和 全 相 联 cache 中 ， 会 同时 存在 几 个 可 以 换 出 的 块 。 在 组 相 联 cache 中 ,任何 一 个 处 在 映射 组 
中 的 块 都 是 备 选 的 换 出 块 。 在 全 相 联 cache 中 ， 整 个 cache 中 所 有 的 块 都 是 备 选 的 换 出 块 。 在 
组 相 联 或 全 相 联 cache 中 选择 换 出 块 的 过 程 称 为 替换 策略 。 

最 简单 的 替换 策略 是 随机 替换 ， 在 这 种 策略 中 ， 会 随机 选择 组 中 的 一 个 块 作为 换 出 块 。 随 
机 替换 决策 的 过 程 中 不 需要 维护 过 去 访问 的 信息 ， 它 与 访问 块 的 历史 记录 无 关 。 

其 他 替换 策略 则 试图 选择 一 个 换 出 块 使 得 -cache 的 失效 率 最 小 。 如 果 可 以 知道 未 来 对 每 个 
组 的 访问 模式 ， 那 么 最 恰当 的 换 出 块 应 该 是 将 来 最 久 才 会 被 访问 的 块 。 这 种 理想 化 的 策略 称 为 
OPT (最 优 ) 策略 。OPT 策略 的 原则 很 简单 ， 如 果 替 换 策略 在 一 次 失效 时 保留 了 某 个 块 ， 那 么 
它 会 希望 将 这 块 一 直 保 留 到 下 次 对 它 的 访问 。 如 果 无 法 将 它 一 直 保留 到 下 次 访问 时 ， 就 应 该 换 
出 它 ， 因 为 它 会 毫 无 意义 地 占据 cache 空间 。 如 果 下 次 对 某 块 的 访问 越 迟 ,那么 根据 OPT 策 
略 ， 这 个 块 越 可 能 被 换 出 。OPT 策略 是 无 法 实现 的 ， 因 为 它 需要 知道 未 来 访问 的 模式 。 但 是 
OPT 策略 可 以 给 出 失效 率 的 下 界 ， 其 他 可 行 的 策略 可 以 以 此 为 参照 进行 比较 。 在 考虑 到 访问 历 
史 的 可 行 策略 中 ， 和 希望 过 去 的 访问 行为 可 以 用 来 预测 将 来 的 访问 行为 。 

最 近 最 少 使 用 (Least Recently Used，LRU) 策略 依赖 于 对 每 个 块 的 历史 访问 的 局 部 性 ， 并 
且 记 录 下 组 中 对 每 个 块 的 最 近 一 次 访问 的 时 间 。 在 一 次 失效 时 ， 它 选择 过 去 最 久未 被 使 用 的 那 
块 换 出 。 这 种 策略 的 原则 是 ， 如 果 某 个 块 最 近 被 访问 过 ， 和 那么 将 来 也 可 能 再 访问 它 。 某 种 程度 ， 
上 LRU 策略 是 OPT 的 镜像 : 它 希望 根据 局 部 性 原理 ， 过 去 访问 的 行为 会 与 将 来 访问 的 行为 类 
似 。 当 组 大 小 较 小 时 ,很 容易 实现 LRU 策略 。 

可 以 有 很 多 方法 来 追踪 对 cache 行 的 访问 历史 。 方 法 之 一 是 给 每 个 cache 行 分 配 一 个 优先 
级 ,优先 级 越 高 的 行 越 容易 被 换 出 。 如 果 组 大 小 是 2 行 ， 那么 只 需要 一 个 访问 历史 位 指向 最 近 
被 访问 过 的 那 一 行 就 可 以 了 。 如 果 组 大 小 是 4 行 ， 那么 每 行 需要 两 位 来 记录 访问 历史 以 及 替换 
优先 级 。 如 图 4-7 所 示 ， 更 新 访问 历史 位 的 过 程 有 点 复杂 每 行 有 两 个 历史 位 ;优先 级 0 对 应 
MRU (最 近 被 使 用 的 ) 行 。 当 处 在 优先 级 2 的 第 3 行 (Line 3) 被 命中 时 (图 4-7a) ， 优 先 级 
低 于 3 的 历史 位 需要 更 新 , 而 优先 级 为 3 (Line'2) 历史 位 保持 不 变 。 当 出 现 失 效 时 
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(图 4-7b)， 所 有 优先 级 位 都 需要 进行 模 4 加 1。 当 MRU 行 命中 时 ， 优 先 级 位 不 会 改变 。 由 于 
历史 位 的 更 新 比较 复杂 ， 人 们 经 常 使 用 伪 LRU 来 替代 LRU 策略 。 伪 LRU 策略 并 不 像 LRU 那样 
精确 记录 对 块 的 访问 历史 ， 但 是 对 历史 位 的 更 新 会 简单 很 多 ， 尤 其 是 对 于 较 大 的 组 。 


Line 0 Line 0 Lne0 [01| Lineo 
Line 1 00 | Line 1 | 01 | Line 1 00 | Line 1 区 
Line 2 [| Line2 Er 

Line3 |10| Line3 Line3 |10| Line3 | {1| 


a ) 优先 级 中 第 3 行 命中 b ) 失效 
图 4-7 LRU 中 更 新 访问 历史 位 


LRU 和 伪 LRU 策略 的 问题 在 于 ， 每 次 访问 cache 时 ， 无论 命中 还 是 失效 都 需要 更 新 历史 
位 。 与 此 相反 的 是 先进 先 出 (First In First Out，FIFO) 策略 ， 它 只 会 在 失效 时 通过 模 4 加 1 更 
新 历史 位 (此 时 有 更 多 重 倒 的 时 间 )。FIFO 策略 的 问题 在 于 ， 即 使 有 的 块 被 频繁 访问 也 会 被 
换 出 。 


4.3.3 写 策略 


在 维护 存储 层次 的 一 致 性 方面 有 很 多 不 同 的 写 策略 ， 主 要 的 策略 包括 写 穿 透 〈write 
through) 和 写 回 ,(write back) 两 种 。 

写 穿 透 cache 

在 写 穿 透 cache 中 ， 所 有 的 store 操作 都 会 更 新 到 低级 cache。 在 流水 执行 的 机 制 中 ， 如 果 
所 有 store 操作 的 执行 速度 都 按照 低级 cache 的 速度 来 执行 ， 那么 机 器 的 IPC 会 受到 很 大 的 影 
响 ， 因此, 可 以 利用 store 缓冲 来 避免 将 低级 
cache 的 访问 延迟 暴露 给 处 理 器 ， 如 图 4-8a 所 示 。 
store 缓冲 会 挂 起 store 操作 ， 包 括 访问 地 址 和 数 
据 ， 绥 冲 控制 器 会 在 通 向 下 一 级 cache 的 总 线 空 国贸 
闲 时 传播 地 址 和 数据 ， 只 有 当 缓 冲 区 满 时 才 会 暂 所 有 slore 。 store 缓 直 ( 记录 地 址 和 数据 ) 
停 处 理 器 。 由 于 下 一 级 的 数据 总 是 更 新 过 的 ， 当 a ) 写 穿 透 L1 cache 
写 失效 时 就 没有 必要 重新 给 该 块 分 配 空间 了 。 ob, 
此 ， 写 穿 透 cache 在 写 失效 时 不 会 分 配 cache 行 ， 所 有 访问 
而 是 只 将 写 操作 插入 store 缓冲 。 为 了 维护 一 致 《CPU | 3 
性 ，load 失效 时 需要 先 查 看 store 缓冲 中 是 否 有 相 ee ee 
同 地 址 的 store 操作 。 如 果 检 测 到 匹配 ，load 失效 bj) 写 回 L1 cache 
要 么 返回 缓冲 中 的 最 新 值 (前 递 store\ 缓 冲 )， 要 
么 在 访问 下 一 级 cache 之 前 等 待 sore 缓冲 中 的 操 
作 执 行 完 。 

写 穿 透 策略 可 以 简化 cache 设计 ， 并 且 常 被 用 在 较 小 的 一 级 cache 中 。 不 过 ,在 这 种 策略 
下 ， 即 使 cache 增 大 ， 其 所 需 的 往 下 一 级 写 的 数据 量 也 不 会 有 所 缓解 ， 这 是 cache 架构 改进 需 
要 重点 考虑 的 。 对 于 大 的 cache 来 说 ， 通 常 采 用 写 回 策略 维护 两 级 cache 之 间 的 一 致 性 。 

写 回 cache 

在 写 回 cache 中 (如 图 4-8b 所 示 )， 只 有 当 被 修改 过 的 cache 块 被 换 出 时 才 会 向 下 一 级 
cache 传递 写 操作 。 每 个 cache 行 需要 一 个 脏 位 ， 当 失效 后 将 一 个 块 装载 到 -cache 中 时 ， 脏 位 被 
复位 。 当 写 操作 修改 cache 行 时 ， 脏 位 被 置 位 。 当 根据 替换 策略 换 出 一 个 脏 块 时 ， 必 须 将 其 写 
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回 到 下 一 级 cache 中 ， 而 干净 的 块 则 不 需要 写 回 。 由 于 load 操作 处 在 处 理 器 执行 的 关键 路 径 
上 ， 应 该 尽快 解决 load 失效 。 当 发 生 load 失效 时 ， 先 选取 换 出 块 并 向 下 一 级 发 出 失效 请 求 。 当 
load 操作 被 挂 起 时 ， 如 果 换 出 块 被 修改 过 ， 换 出 块 会 被 送 到 一 个 写 回 缓冲 中 (也 称 作 vicitm 组 
冲 ) ， 从 而 保证 在 返回 失效 块 之 前 清空 cache 行 。 此 后 ， 写 回 缓冲 会 在 后 台 向 下 一 级 更 新 。 为 
了 维护 一 致 性 ， 当 发 生 Ll 失效 时 需要 先 查 看 写 回 缓冲 。 


4. 3. 4 ” cache 层次 的 性 能 


衡量 cache 性 能 的 一 个 主要 标准 是 平均 失效 率 (average miss rate)。 第 i 级 cache 的 失效 率 
(MR,) 等 于 失效 次 数 与 处 理 器 访问 次 数 的 比 。 在 层次 结构 的 cache 中 ， 低 于 LI 级 的 cache 级 
的 失效 率 也 被 定义 为 失效 数 与 更 高 层次 cache 访问 本 级 cache 次 数 的 比 (相对 失效 率 )， 第 i 级 
的 这 种 失效 率 等 于 MR,/MR,_,。 使 用 MR 作为 衡量 标准 的 好 处 是 ， 它 独立 于 高 层次 cache 的 失 
效率 ， 并 且 对 MR 的 计算 可 以 把 当前 cache 当 作 cache 层次 中 的 唯一 的 cache 计算 。 

第 i 级 的 命中 率 (HR,) 定义 为 处 理 器 访问 命中 的 比例 ， 等 于 1 - MR,。 

失效 率 对 于 估计 每 次 存储 器 访问 (指令 或 数据 ) 的 平均 时 间 很 有 帮助 。 但 是 ， 它 与 CPI 没 
有 直接 关系 ， 因 为 load 和 store 指令 (需要 两 次 存储 器 访问 ) 的 比例 是 依赖 于 程序 的 。 另 一 种 
常用 的 衡量 标准 是 在 第 i 级 的 每 条 指令 失效 次 数 (MPI;) 。 这 个 指标 的 计算 方法 是 用 总 的 失效 
数 除 以 总 的 执行 的 (提交 的 ) 指令 数 。 

失效 率 和 每 条 指令 失效 次 数 在 衡量 cache 性 能 上 都 是 有 所 欠缺 的 ， 因 为 它们 没有 考虑 到 失 
效 对 于 性 能 的 影响 。 一 个 可 以 守 括 所 有 cache 性 能 的 指标 是 平均 访 存 时 间 (Average Memory 
Access Time，AMAT) ， 男 一 种 指标 是 失效 对 于 CPI 的 影响 。 

失效 延迟 是 从 发 现 失 效 到 将 值 返回 给 上 一 层 cache 所 用 的 周期 数 。 未 加 载 延 迟 (unloaded 
latencey) 是 在 系统 中 没有 其 他 冲突 活动 时 的 失效 延迟 。 加 载 延 迟 (loaded latency) 则 包括 了 冲 
突 时 间 。 然 而 ， 加 载 延 迟 仍然 无 法 准确 反应 一 次 失效 对 于 处 理 器 性 能 的 真正 影响 ， 因 为 失效 延 
迟 可 能 与 处 理 器 执行 或 其 他 失效 重 琶 。 第 i 级 的 失效 开销 (Miss Penalty，MP,) 可 以 衡量 第 i 
级 的 一 次 失效 对 AMAT 或 CPI 的 真正 影响 。 同 样 ， 第 i 级 的 命中 开销 (Hit Penalty; HP,) 可 以 
衡量 第 i 级 的 一 次 命中 对 于 AMAT 或 CPI 的 真正 影响 。 有 : 


AMAT = HR, x HP, + MR, x MP， (4.1) 
HR MR. 
ME .去 fl HP., — 4:2 
: (ss )* ne EE 2 
假定 CPI, 是 所 有 cache 都 命中 时 的 CPI， 则 
| CPI = CPI, + MPI, x MP, (4.3) 


在 静态 流水 线 (如 五 级 流水 线 ) 中 很 容易 计算 出 失效 开销 ， 这 种 情况 下 ， 处 理 器 在 Ll 失 
效 时 停顿 一 个 周期 ， 并 且 一 次 处 理 一 个 cache 失效 ， 可 以 通过 每 级 的 未 加 载 命中 和 失效 延迟 将 
失效 开销 计算 出 来 。 但是， 在 允许 推测 执行 的 处 理 器 中 就 难 计算 出 失效 开销 了 。 在 乱 序 执行 处 
理 器 中 ， 很 难 量 化 一 次 失效 对 于 处 理 器 执行 的 影响 。 当 load 发 生 失 效 时 ， 处 理 器 并 不 会 停顿 ， 
它 会 尽 可 能 执行 一 些 不 相关 的 指令 。 由 于 相关 的 指令 无 法 执行 ， 失 效 可 能 在 某 种 程度 上 降低 处 
理 器 速度 (其 至 降 到 很 低 ) ， 但 这 种 降低 是 很 难 估计 的 。 任 何 给 定 访 存 指令 的 开销 都 依赖 于 处 
理 器 中 其 他 同时 执行 的 指令 的 活动 。 因 此 ， 通常 来 讲 ，cache 的 改进 可 能 并 不 会 直接 导致 CPI 
(或 执行 时 间 ) 的 改善 。 例 如 ,对 cache 失效 率 的 简单 改进 甚至 可 能 会 导致 CPI 变 差 ， 即使 其 
他 所 有 参数 都 保持 不 变 ， 这 是 因为 乱 序 执行 是 无 法 预测 的 。 因此 式 《4.1) ~ 式 《4.3) 在 现代 
系统 中 的 应 用 十 分 有 限 。 
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4. 3. 5 ”cache 失效 的 分 类 


并 不 是 所 有 cache 失效 都 是 一 样 的 ， 相 反 ，cache 失效 有 不 同 的 种 类 ， 并且 有 不 同 的 措施 
(软件 的 或 硬件 的 ) 来 降低 这 些 失 效 。 一 种 常见 的 分 类 方法 是 3C 失效 : 

@ 冷 失效 (cold 或 compulsory) 是 指 每 个 内 存 块 第 一 次 访问 时 发 生 的 cache 失效 。 冷 失效 

是 无 法 避免 的 ， 除 非 cache 将 内 存 块 预 取 进来 。 
e 容量 失效 (capacity) 是 由 于 cache 大 小 不 够 ， 无 法 容纳 整个 工作 集 的 数据 而 引起 的 。 
e 冲突 失效 (conflict) 是 由 于 映射 策略 的 限制 ， 使 得 多 个 块 映 射 到 组 相 联 cache 中 的 相 
同 的 组 而 产生 的 失效 。 

在 给 定 工作 量 和 硬件 条 件 的 情况 下 ， 经 常 使 用 cache 模拟 来 计算 每 种 失效 的 次 数 。 通 常情 
况 下 ， 简 单 的 trace 驱动 模拟 就 足够 了 。 

为 了 确定 冷 失效 的 次 数 ， 通 过 将 工作 集 在 拥有 无 限 容 量 cache 的 目标 机 上 进行 模拟 。 | 冷 失 
效 的 次 数 与 大 多 数 cache 参数 无 关 ， 如 cache 大 小 、 组 织 方式 以 及 蔡 换 策略 。 可 以 通过 增加 
cache 块 大 小 的 方式 来 减少 冷 失效 次 数 ， 因 为 随 着 块 大 小 的 增加 ， 一 次 失效 可 以 取 更 多 的 数据 。 
通常 情况 下 冷 失效 率 在 总 的 失效 率 中 可 以 忽略 不 计 。 

为 了 确定 容量 失效 的 次 数 ， 通 过 将 工作 集 在 使 用 全 相 联 cache 的 目标 机 上 进行 模拟 。 容 量 
失效 的 次 数 等 于 总 次 数 减 去 冷 失效 次 数 。 影 响 容量 失效 次 数 的 主要 因素 是 cache 大 小 。 然 而， 
其 他 因素 (如 块 大 小 ) 也 很 重要 。 随 着 块 大 小 的 增加 ， 冷 失效 率 得 以 改进 ， 因 为 可 以 开发 更 
多 的 空间 局 部 性 。 但 是 ， 在 有 限 的 容量 下 ， 存 在 某 个 临界 点 ， 使 得 空间 局 部 性 带 来 的 好 处 可 以 
被 对 同一 cache 行 的 竞争 所 抵消 掉 。 计 算 容量 失效 的 一 个 重要 因素 是 替换 策略 ， 显 然 最 优 蔡 换 
策略 (OPT) 是 首选 ， 因 为 它 可 以 使 全 相 联 cache 的 失效 次 数 最 小 。 

为 了 确定 冲突 失效 的 次 数 ， 通 过 将 工作 集 在 实际 cache 的 目标 机 上 进行 模拟 。 冲 突 失 效 的 
次 数 等 于 总 次 数 减 去 冷 失 效 次 数 和 容量 失效 次 数 。 影 响 冲突 失效 次 数 的 主要 因素 是 cache 的 组 
织 方式 。 直 接 映射 的 cache 拥有 最 高 的 冲突 失效 率 。 随 着 相 联 度 的 增加 ， 冲 突 失效 次 数 显著 降 
低 。 有 数据 表明 八路 组 相 联 的 cache 对 于 大 多 数 工 作 集 的 冲突 失效 率 已 经 和 全 相 联 cache 几乎 
相同 了 。 为 了 清晰 描述 冲突 失效 的 重要 性 ， 有 个 经 验 性 法 则 指出 ， 两 路 组 相 联 cache 的 失效 率 
同 容量 二 倍 于 它 的 直接 映射 cache 差不多 。 

3C 失效 只 是 强调 单 处 理 器 中 的 失效 率 。 在 含有 cache 的 多 处 理 器 系统 中 ，3C 失效 会 拓展 
到 4C 失效 ， 其 中 第 四 个 C 指 一 致 性 失效 。 

尽管 失效 率 是 cache 性 能 的 一 个 重要 指标 ， 但 是 最 终 的 标准 仍 是 CPI 或 IPC 和 执行 时 间 。 
接近 于 执行 时 间 的 指标 是 AMAT， 它 包括 了 改进 cache 失效 率 方法 对 时 间 的 所 有 影响 。 例 如 ， 
更 大 的 块 会 增加 失效 开销 ， 更 高 的 相 联 度 会 增加 命中 开销 。 

设计 cache 层次 是 为 了 使 命中 开销 \、 失 效率 和 失效 开销 最 小 化 。 为 了 最 小 化 失效 开销 ， 可 
以 通过 更 快 的 电路 、 更 高 的 并 发 性 和 流水 化 存储 系统 来 减 小 延迟 。 此 外 ， 也 可 以 通过 将 多 个 
cache 命中 和 失效 重 释 ， 在 访问 之 前 预 取 块 到 cache， 来 降低 失效 延迟 。 


4. 3.6“ 非 阻塞 cache 


对 于 静态 流水 线 ( 如 五 级 流水 线 ) 而 言 ，cache 一 次 只 处 理 一 个 处 理 器 的 访问 是 可 以 接受 
的 ， 但 是 对 于 可 以 在 一 个 周期 执行 多 条 访问 指令 的 机 器 来 说 ， 这 就 会 阻碍 速度 的 加 快 。 同 一 时 
刻 只 接受 一 个 处 理 器 请 求 的 cache 称 作 阻塞 式 cache (blocking cache) 。 现 代 的 cache 都 是 非 阻 
塞 的 〈non-blocking， 或 者 叫 lockup-free) ， 它 们 可 以 在 同一 时 间 处 理 多 个 命中 和 失效 。 为 了 理 
解 为 什么 非 阻 塞 是 可 行 的 ， 需 要 注意 到 cache 是 一 个 需要 两 侧 交互 的 设备 。cache 的 功能 可 以 被 
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分 到 两 个 控制 器 中 : 一 个 控制 到 来 的 请 求 ， 一 个 处 理 cache 失效 。 图 4-9 给 出 了 非 阻塞 的 Ll 
cache， 它 需要 响应 来 自 处 理 器 的 请 求 ， 同 时 需要 处 
理 到 低级 cache 的 失效 。 

cache 在 每 一 侧 都 有 一 个 控制 器 ， 命 中 的 请 求 可 
以 由 一 个 控制 器 完成 ， 如 果 请 求 未 命中 ， 它 就 被 交 
给 第 二 个 控制 器 来 处 理 失 效 。 每 个 核 的 LL 和 了 
cache 都 需要 这 样 ， 此 外 ， 多 线程 共享 的 cache， 如 
支持 多 线程 核 的 LI cache 和 片上 多 处 理 器 的 共享 [2 
cache， 也 需要 这 样 做 。 一 旦 控制 器 处 理 一 个 新 的 失 
效 ， 就 会 分 配 一 个 cache 行 ， 换 出 一 块 ， 换 出 块 可 能 先 存 人 写 回 缓冲 中 等 待 写 回 。 控 制 器 必须 
记录 下 所 有 未 完成 的 失效 ， 这 一 功能 由 失效 状态 处 理 寄存 器 (Miss Status Handling Register， 
MSHR) 完成 。 每 一 个 未 完成 的 失效 都 会 分 配 一 个 MSHR。MSHR 中 包含 诸如 块 地 址 、 对 应 的 
cache 行 以 及 load 指令 的 目的 寄存 器 等 信息 ， 这 些 信息 可 以 用 来 完成 失效 处 理 ， 以 及 避免 对 同 
一 块 发 送 多 个 失效 请 求 。 

相 比 于 阻塞 式 cache， 非 阻塞 cache 会 导致 更 多 的 失效 ， 因 为 尽管 对 某 个 块 的 失效 已 经 在 处 
理 中 ， 非 阻塞 cache 仍 会 接受 对 这 个 块 的 访问 ， 很 多 访问 失效 同 那些 未 完成 的 失效 所 对 应 的 块 
是 一 样 的 。 第 一 次 失效 叫 作 初次 失效 ， 并 且 已 经 分 配 了 MSHR ， 失 效 请 求 已 经 发 送 给 低级 别 的 
存储 层次 。 在 现代 处 理 器 中 ， 主 频 达 到 了 几 GHz 的 水 平 ， 返 回 一 个 访问 失效 的 块 需要 20 ~ 200 
个 周期 。 在 这 段 时 间 内 ， 由 于 访 存 的 局 部 性 ， 可 能 会 有 更 多 对 该 块 的 访问 。 当 非 阻塞 cache 收 
到 一 个 对 未 完成 的 失效 块 的 访问 时 ， 它 通过 分 配 一 个 MSHR 记录 下 这 次 访问 ， 但 不 会 向 下 一 级 
存储 发 送 请 求 ， 因 为 这 一 块 的 初次 失效 已 经 在 处 理 中 了 。 对 已 经 在 处 理 中 的 块 的 失效 访问 称 作 
三 次 失效 。 当 一 个 失效 块 返回 时 ， 初 次 失效 和 二 次 失效 请 求 的 字 都 由 -eache 提供 ， 这 样 二 次 失 
效 的 延迟 有 一 部 分 与 初次 失效 重大 了。 二 次 失效 的 情况 在 阻塞 式 cache 中 不 会 出 现 ， 因 为 阻塞 
式 cache 一 次 只 接收 和 处 理 一 个 访问 请 求 。 

非 阻塞 cache 在 现代 的 宽 发 射 乱 序 执 行 处 理 器 中 很 常见 ， 因 为 必须 维护 内 存 操作 的 吞吐 
量 ， 并 且 内 存 访 问 必须 与 失效 和 处 理 器 执行 并 发 执行 ， 从 而 隐藏 cache 失效 的 开销 。 此 外 ， 通 
过 预 加 载 和 预 取 cache 块 来 避免 失效 也 需要 非 阻塞 cache。 

阻塞 cache 和 非 阻 塞 cache 的 比较 ”为 了 比较 阻塞 cache 和 非 阻塞 cache 的 吞吐 
量 , -考虑 下 面 的 微型 基准 测试 程序 : 


ToY: LW R1,0(R2) 

ADDI R2,R2,#4 

BNE R2,R4,TOY 
假设 cache 容量 无 限 ， 块 大 小 为 16 字 节 (4 个 字 ) ， 初 始 时 为 空 。 处 理 器 速度 很 快 ， 以 至 于 
load/store 队列 总 是 满 的 ， 地 址 总 是 可 用 的 ， 从 而 每 个 周期 都 有 一 个 load 指令 可 以 发 射 到 
cache。 

首先 考虑 阻塞 cache， 一 次 命中 需要 1 个 周期 ， 一 次 失效 需要 200 个 周期 (包括 最 初 检查 

cache 的 访问 ) ， 执 行 过 程 如 图 4-10a 所 示 。 每 个 失效 需要 200 个 周期 ， 并 且 后 边 紧 接 着 有 3 次 
命中 。 循 环 的 每 次 执行 大 概 需要 50 个 周期 。 现 在 假设 cache 是 非 阻塞 的 ， 并 且 有 16 个 MSHR ， 
因此 它 最 多 可 以 运行 16 个 未 完成 的 失效 (初次 失效 和 二 次 失效 )。 其 执行 过 程 如 图 4-10b 所 
示 。P 和 5 指向 初次 失效 或 二 次 失效 发 生 和 返回 的 周期 数 。 相 同 的 模式 每 200 个 周期 循环 一 次 ， 
每 200 个 周期 执行 16 次 load， 因 此 一 次 迭代 的 执行 大 概 需 要 13 个 周期 。 





图 4-9 非 阻塞 Ll cache: C 为 cache 到 
内 存 的 接口 ; Ce 为 处 理 器 到 
cache 的 接口 
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b ) 包含 16 个 MSHR 的 非 阻 塞 cache 


图 4:10 两 种 cache 的 吞吐 量 比 较 a 


4. 3. 7 ”cache 预 取 和 预 加 载 


在 乱 序 推测 执行 处 理 器 中 支持 非 阻塞 cache 可 以 保证 获得 很 高 的 内 存 吞 吐 率 。 但 是 ， 每 次 
内 存 访问 时 的 初次 失效 及 其 开销 还 是 无 法 避免 。 如 果 在 访问 某 一 块 之 前 先 将 其 预 取 到 cache 
中 ， 就 可 以 避免 初次 失效 以 及 之 后 对 于 同一 块 的 二 次 失效 ,这 就 是 预 取 和 预 加载 的 基本 思想 。 

“ 预 加 载 ”( preloading) 和 “ 预 取 ” (prefetching) 意思 基本 相同 , 但 “ 预 加载 ” 主 要 用 在 第 一 
次 向 cache 中 加 载 块 的 情况 〈 冷 失效 ) 。 

cache 预 取 有 多 种 不 同 的 形式 ， 站 二 全 个 和 指令 和 数据 都 可 以 被 预 取 。 所 
有 的 预 取 都 是 无 约束 力 的 (non-binding) ， 且 只 用 在 cache 中 。 这 表明 预 取 只 会 简单 地 将 被 预 取 
块 以 及 正确 的 访问 权限 返回 到 cache 有 相关 联 的 缓冲 ) 中 ， 而 不 真正 执行 访问 操 
作 。 返 回 异 常 的 预 取 操 作 会 被 放弃 。 下 面 先 讲述 一 些 常用 的 硬件 预 取 技 术 。 

硬件 预 取 

预 取 指令 是 很 重要 的 ， 因 为 I-cache 失效 会 导致 处 理 器 没有 指令 可 执行 。 常 用 的 预 取 机 制 
是 顺序 预 取 ， 在 顺序 预 取 中 ， 会 预 取 当 前 访问 失效 块 的 相 邻 块 (在 地 址 空间 中 相 邻 ) 。L cache 
有 一 个 小 的 缓冲 区 用 来 保存 几 条 指令 
(通常 是 一 个 块 大 小 ) ， 如 图 4-11a 所 示 。 
当 cache 失效 时 ， 除 了 取 回 失效 的 块 之 
外 ， 还 会 检查 I-cache 中 是 否 有 相 邻 的 下 
一 块 〈 相 邻 地 址 空间 ) ， 如 果 该 块 不 在 
cache 中 ， 就 将 其 预 取 到 预 取 缓冲 中 。 
如 果 这 个 块 在 预 取 缓冲 中 ， 就 将 其 加 载 
到 cache 中 ,并 释放 预 取 缓 冲 中 的 
空间 。 

将 块 预 取 到 小 的 预 取 缓冲 而 不 是 直 
接 取 到 cache 中 ,可 以 避免 无 用 的 预 取 ， 
比如 取 到 不 被 访问 的 块 。 如 果 预 取 缓 冲 b ) LT 和 L2 失 效 的 预 取 引擎 ( PFE ) 
中 的 块 不 被 访问 ， 它 所 占 的 空间 会 被 其 图 4-11 指令 和 数据 的 硬件 预 取 
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他 预 取 块 所 占用 。 在 顺序 预 取 中 ， 一 次 失效 可 能 会 有 多 个 块 被 预 取 ， 预 取 的 块 数 称 为 预 取 度 
(prefetch degree) 。 顺 序 预 取 与 简单 的 采用 更 大 cache 行 容 量 的 机 制 有 一 个 很 明显 的 区 别 ， 预 取 
在 块 级 别 可 以 适应 不 同 的 程序 以 及 程序 执行 的 不 同 阶段 。 此 外 ， 预 取 缓 冲 还 可 以 避免 cache 污 
染 。 顺 序 预 取 的 缺点 与 大 容量 cache 行 相 反 ， 主 要 是 需要 额外 的 cache 目录 项 。 顺 序 预 取 在 指 
令 cache 中 很 有 效 ， 因 为 指令 趋向 于 存储 在 连续 的 空间 中 。 顺 序 预 取 在 数据 cache 中 就 没 那么 
有 效 了 ， 因 为 数据 的 存放 没有 那么 强 的 顺序 性 。 
预 取 引擎 (Prefetch Engines，PFE) 是 监管 两 级 存储 器 之 间 总 线 的 硬件 预 取 设 备 ， 同 时 它 
也 自动 向 下 一 级 发 送 失效 请 求 ， 如 图 4-11b 所 示 。 一 个 PFE 可 能 用 于 预 取 层次 化 存储 中 的 每 一 
级 。PFE 通过 观察 总 线 上 的 地 址 来 检测 常规 地 址 模式 ,检测 出 的 地 址 模式 是 等 跨 距 的 ， 即 地 址 
之 间 的 差 值 是 固定 的 。 多 个 地 址 流 需 要 进行 并 发 跟踪 ， 比 如 循环 内 通常 不 止 访问 一 个 数组 。 经 
过 一 段 时 间 训 练 之 后 ， 可 以 检测 到 某 个 模式 ， 然 后 预 取 器 按照 该 模式 预测 ， 从 下 一 级 预 取 块 。 
当 模 式 停止 时 ， 预 取 器 也 需要 停 下 来 以 避免 过 度 预 取 。 
硬件 预 取 由 推测 执行 触发 ,一 旦 访 存 指令 的 地 址 得 出 后 ， 这 个 块 就 可 以 被 预 取 到 cache 
中 ， 即 使 该 行为 会 破坏 程序 的 正确 执行 也 没关系 。 例 如 ，store 指令 可 以 在 得 到 地 址 之 后 就 进行 
预 取 ， 尽 管 它们 本 应 该 在 到 达 重 排序 队列 顶端 才 被 执行 。load 指令 在 得 到 地 址 之 后 也 可 以 预 
取 ， 即 使 之 前 的 store 指令 地 址 可 能 还 不 知道 。 之 所 以 能 这 么 做 ;是 因为 预 取 只 发 生 在 cache 内 
并 且 是 非 约 束 性 的 ; 一 旦 某 个 失效 触 碰 到 这 个 块 ， 它 就 会 被 预 取 到 cache 中 。 如 果 预 取 时 发 生 
异常 ， 这 次 预 取 就 被 丢弃 掉 。 通 过 对 访问 的 预测 ，cache 块 很 可 能 在 真实 访 存 指 令 执行 之 前 或 
者 在 重 排序 队列 提交 之 前 就 被 预 取 到 cache 中 。 这 种 硬件 预 取 是 无 害 的 ， 只 是 在 预测 错误 必须 
撤回 的 情况 下 可 能 会 污染 cache。 
软件 预 取 
cache 预 取 也 可 以 通过 软件 触发 。 程 序 员 和 编译 器 由 于 懂得 代码 含义 ， 它 们 可 以 知晓 未 来 
执行 的 情况 。 因 此 编译 器 (可 能 需要 程序 员 的 帮助 ) 可 能 显 式 地 插入 预 取 指 令 到 代码 中 。 预 
取 指 令 类 似 于 load， 但 是 它们 没有 明确 的 目的 寄存 器 。 预 取 指 令 必 须 是 非 阻塞 的 指令 ， 例 如 ， 
在 五 级 流水 线 中 ， 预 取 指 令 如 果 引 起 cache 失效 也 不 会 导致 流水 线 停顿 。 预 取 指 令 的 形式 有 很 
多 种 ， 每 种 都 包括 一 些 提示 信息 ， 告 诉 硬件 在 什么 状态 下 预 取 哪些 东西 。 例 如 ， 有 对 load、 
store 或 流 指令 的 预 取 指令 ， 指 令 和 数据 都 可 以 预 取 。 为 了 使 软件 预 取 有 效 ，cache 必须 是 非 阻 
塞 的 。 
软件 预 取 ”考虑 如 下 这 样 的 循环 ， 循 环 中 给 向 量 中 的 每 个 双 字 加 一 个 常数 ， 插 人 
了 如 下 的 预 取 指 令 : 
LOOP L.D ER2,0(R1L) 
PREF -24(RI) 
RDD.D F4,F2,F0 
S.D F4,0(R1) 


SUBI R1,RI,#8 
BNEZ RI,DLOOP 


一 在 这 段 代码 中 ，PREF 指令 提前 3 个 迭 代 加 载 对 应 的 cache 块 。 预 取 的 操作 数 是 内 存 地 址 ， 
预 取 的 提示 信息 可 以 是 一 个 store 访问 提示 ， 因 为 在 循环 体 中 数据 块 进行 了 更 新 。 如 果 出 现 异 
常 ， 预 取 就 会 被 放弃 。 编 译 器 必须 能 够 预测 每 次 迭代 的 周期 数 ， 从 而 决定 预 取 的 布局 。 在 本 例 
中 ， 如 果 一 个 L1 失效 需要 24 个 周期 ( 预 取 距 离 )， 并且 除 去 失效 后 执行 一 次 循环 需要 6 个 周 
期 ， 这样 预 取 的 块 就 会 恰好 取 到 cache 中 ,循环 就 不 会 失效 。 对 覆盖 预 取 距离 的 迭代 执行 次 数 进 
行 估计 ， 通 常 是 很 难 的 。 如果 低 估 了 迭代 次 数 ，load 指令 就 需要 等 待 失效 开销 ， 如 果 高 估 了 迭代 
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次 数 ， 可 能 预 取 到 的 块 会 被 蔡 换 掉 ， 这 样 既 污 染 了 cache 又 可 能 使 处 理 器 等 待 整 个 失效 开销 。 
每 次 迭代 取 值 、 译 码 以 及 执行 预 取 指 令 这 些 固定 开销 必须 在 其 他 地 方 进 行 均 挫 。 理 想 情况 
下 ， 有 条 件 的 预 取 会 带 来 好 处 ， 但 这 无 疑 会 增加 循环 的 指令 数 。 4 


4.4 虚拟 存储 


在 虚 存 系统 中 ， 处 理 器 发 出 的 地 址 〈 通 常 称 为 有 效 地 址 ) 是 虚拟 地 址 ， 需 要 先 转换 为 物 
理 地 址 才能 访问 物理 存储 器 。 每 个 运行 的 进程 都 会 分 配 虚拟 地 址 。 物 理 内 存 空 间 是 真正 由 存储 
价 质 组 成 的 存储 区 ， 通 常 是 指 主 存 。 虚 存 空 间 是 进程 产生 的 地 址 集合 ， 一 个 进程 绝 大 多 数 的 虚 
拟 空间 都 是 空 的 、 没 有 分 配 的 ， 并 且 没 有 存储 在 物理 介质 中 。 


4.4.1 引入 虚 存 的 动机 


设计 虚 存 最 初 的 动机 是 希望 程序 员 可 以 不 用 考虑 物理 存储 大 小 来 编写 程序 ， 尤 其 是 程序 员 
编写 的 代码 长 度 和 数据 区 大 小 可 以 超过 物理 存储 的 大 小 。 在 虚 存 之 前 ， 程 序 员 需 要 在 代码 中 显 
示 地 管理 物理 地 址 空间 ， 这 一 技术 也 叫 作 程序 合 加 〈overlay) 。 程 序 员 通过 编写 VO 操作 将 大 
块 代码 和 数据 装 入 内 存 ， 当 执行 完 当前 的 指令 块 后 ， 后 面 的 指令 和 数据 块 就 会 琶 加 覆盖 当前 的 
存储 区 域 。 很 显然 ， 这 是 一 个 非常 繁琐 、 容 易 出 错 并 且 很 难 调试 的 方法 。 此 外 ， 针 对 不 同 存储 
大 小 的 机 器 需要 编写 不 同 的 程序 ， 因 此 可 移植 性 也 很 差 。 

自动 管理 程序 存储 空间 有 很 多 好 处 ， 下 面 列举 一 些 这 样 做 的 好 处 。 

。 代码 和 数据 在 主 存 中 可 以 重 定位 。 代 码 和 数据 在 虚 存 空间 中 分 配 地 址 ， 并 且 不 随 物 理 
地 址 的 变动 而 改变 。 

。 一 个 程序 分 配 的 地 址 独立 于 物理 地 址 和 主 存 大 小 ， 这 样 可 以 灵活 且 有 效 地 让 多 个 程序 
共享 一 个 系统 。 这 种 方法 在 通过 软件 多 线程 来 隐藏 WO 延迟 中 很 重要 。 

。 每 个 程序 的 地 址 必须 通过 它 自 己 的 转换 表 进 行 转换 ， 通 过 保证 每 个 程序 只 访问 自己 的 
地 址 空间 ， 就 可 以 使 程序 之 间 相互 隔离 。 这 是 限制 用 户 权 限 的 关键 。 

。 沿 着 从 虚拟 地 址 转换 到 物理 地 址 的 路 径 ， 内 核 可 以 采取 额外 的 控制 ， 这 是 检查 程序 是 
否 执行 混乱 的 关键 ， 如 将 数据 当 作 代码 执行 或 将 代码 
作为 数据 访问 等 错误 ， 也 是 防止 用 户 受 自身 错误 影响 
的 关键 。 

。 最 后 ， 虚 存 有 利于 在 物理 内 存 中 的 多 个 进程 之 间 共 享 
数据 和 代码 ， 这 样 做 可 以 支持 进程 间 通 信 ， 并 且 可 以 
通过 共享 提高 物理 内 存 利用 率 。 比 如 ， 如 果 两 个 程序 
代码 相同 ， 执 行 时 就 没有 必要 在 主 存 中 拷贝 两 份 代 
码 了 。 

上 述 这 些 优 点 也 是 今天 绝 大 多 数 机 器 都 支持 虚拟 存储 的 

原因 。 


4. 4.2 从 操作 系统 视角 看 到 的 虚拟 存储 


在 现代 操作 系统 中 ， 每 个 进程 都 有 自己 独立 的 虚拟 存储 
空间 ,操作 系统 内 核 根据 进程 上 下 文 执行 。 每 个 程序 的 虚拟 i 
空间 分 为 两 大 部 分 : 内 核 (或 系统 ) 区 以 及 用 户 区 ， 如 地 址 232__ 1 


图 4-12 所 示 。 内 核 区 和 用 户 区 的 分 界 是 固定 的 ， 用户 区 通常 ”图 4-12 进程 虚拟 地 址 空间 分 
分 为 3 个 段 : 代码 段 、 数 据 段 和 堆栈 段 。 对 内 核 区 的 虚实 地 布 (32 位 地 址 空间 ) 


地 址 0 
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址 映射 所 有 程序 者 一样， 但 是 对 用 户 页 面 的 映射 则 不 同 。 因 此 ,通常 情况 下 ， 每 个 程序 都 有 
一 组 私有 的 用 户 区 地 址 转换 ， 还 有 一 个 全 局 的 内 核 区 地 址 转换 。 

每 个 进程 的 虚拟 空间 是 由 编译 器 静态 和 操作 系统 动态 共同 分 配 的 。 编 译 器 在 编译 程序 代码 
并 且 分 配 地 址 时 ， 分 配 代码 段 和 静态 数据 段 。 诸 如 堆栈 的 动态 空间 是 通过 缺 页 机 制 动 态 分 配 
的 。 随 着 栈 或 堆 的 增长 ， 如 果 到 达 了 之 前 未 分 配 的 页 ， 就 会 引起 缺 页 ， 进 而 分 配 一 个 新 页 。 虚 
存 可 以 通过 malloe 语句 动态 分 配 虚拟 内 存 : 整体 上 每 个 进程 的 虚 地 址 空间 的 代码 和 数据 都 很 稀 
朴 ， 尤 其 是 对 于 64 位 的 处 理 器 ,存在 很 大 的 空白 。 

虚拟 内 存 按 页 进行 组 织 ， 物 理 内 存 按照 与 页 大 小 相同 的 页 帧 进行 组 织 。 页 和 页 帧 可 以 类 比 
于 内 存 块 和 cache 行 ， 因 此 ， 主 存 相当 于 硬盘 上 存储 的 虞 存 页 的 cache。 页 对 页 帧 按 需 分 时 复 用 
(通过 页 面 需求 算法 ) ， 所 以 当 执行 进程 需要 时 ， 会 将 页 设备 (通常 是 硬盘 ) 上 的 页 换 到 主 存 。 
对 不 在 内 存 中 的 页 面 的 访问 会 触发 一 次 缺 页， 处 理 器 按照 缺 页 异常 进行 处 理 。 当 缺 页 异常 触发 
时 ， 处 理 器 会 直接 执行 软件 处 理 程序 ， 这 个 程序 称 为 缺 页 处 理 程序 。 这 个 程序 首先 会 在 主 存 中 
找到 一 个 替换 页 ， 如 果 这 个 替换 页 被 修改 过 ， 它 会 被 换 出 (也 就 是 说 写 回 硬盘 ) ， 然 后 将 新 页 
换 和 人 到 释放 的 页 帧 。 因 此 维护 一 致 性 的 策略 是 写 回 。 

主 存 相 对 于 虚 存 来 说 是 一 个 全 相 联 的 cache， 这 是 因为 虚拟 页 可 以 放 到 任何 一 个 页 帧 中 。 
考虑 到 整个 物理 内 存 的 大 小 ， 替 换 策略 不 能 采用 LRU。FIFO 策略 是 相对 更 容易 实现 的 策略 : 
内 核 维护 所 有 页 帧 的 一 个 FIFO 队列 ， 这 个 队列 按照 填充 新 页 的 顺序 ， 每 次 选取 队列 顶端 的 页 
帧 进行 替换 。 一 种 常用 的 替换 算法 是 工作 集 或 者 其 变种 。 工 作 集 记录 了 在 最 近 的 时 间 窗 口内 访 
问 的 页 帧 轨迹 ， 在 时 间 窗 口内 未 访问 的 页 面 作为 换 出 的 候选 页 ， 将 其 标记 为 “无 效 ” 并 插 人 
到 页 cache 中 。 当 内 核 需 要 一 个 新 的 页 帧 时 ， 它 就 从 页 cache 中 选取 一 个 。 在 页 cache 中 的 页 面 
仍 驻 留 在 主 存 中 ， 并 且 可 以 在 缺 页 的 情况 下 快速 重新 访问 。 因 此 这 里 有 硬件 缺 页 和 软件 缺 页 的 
区 分 : 发 生硬 件 缺 页 时 ， 页 面 必须 从 硬盘 上 取 ， 并 分 配 一 个 新 的 页 帧 ; 而 发 生 软 件 缺 页 时 ， 页 
面 已 经 在 页 cache 中 ， 缺 页 处 理 程序 只 需 将 相应 的 页 表 项 置 位 有 效 即 可 。 

图 4-13 描述 了 虚实 地 址 空间 的 映射 。 两 个 32 位 的 虚 地 址 空间 映射 到 物理 内 存 中 。 物 理 内 
存 空间 可 能 比 每 个 虚 地 址 空间 都 大 ， 但 是 ， 由 于 很 多 程序 经 常 同时 运行 ， 总 的 虚 地 址 空间 会 比 
物理 地 址 空间 大 很 多 。 总 的 来 说 ， 在 不 同 虚 地 址 空间 ， 两 个 一 样 的 虚 地 址 映射 到 不 同 的 物理 地 
址 。 处 理 器 1 和 2 的 地 址 VA3 被 称 为 同名 的 (名字 相同 ， 但 指向 对 象 不 同 ) 。 同 名 在 存储 系统 
中 会 造成 混乱 ， 一 个 简单 的 消除 同名 的 方法 是 在 虚 地 址 前 加 上 进程 D (PID) 来 保证 它们 唯一 
性 。 地 址 VAL 和 VA2 称 为 别名 (名字 不 同 ,但 指向 相同 的 对 象 ) ， 为 了 灵活 地 共享 代码 和 数 
据 ， 需 要 支持 别名 。 别 名 也 会 造成 存储 系统 的 混乱 ， 并 且 比 同 名 更 难 解决 。 跟 别名 相关 的 问题 


称 为 别名 问题 ， 我 们 会 在 后 面 的 部 分 进行 讲解 。 
虚 存 空间 虚 存 空间 
( 进程 1 ) 物理 内 存 ( 进程 2 ) 





图 4-13 ”虚实 内 存 地 址 映射 


看 储 层次 151 





4. 4. 3 虚 地 址 转换 


支持 虚 存 的 主要 结构 就 是 硬件 的 地 址 转换 ， 需 要 动态 且 有 效 地 将 每 个 虚 地 址 转换 为 一 个 实 
地 址 。 存 储 地 址 转换 的 表 存 放 在 内 存 中 ， 称 为 页 表 (page table) 。 

图 4-14 给 出 了 地 址 转换 过 程 ， 图 中 用 一 个 页 表 就 完成 了 所 有 地 址 转换 ， 这 是 一 个 简化 了 的 情 
况 。 页 表 存 在 主 存 中 〈 这 部 分 由 物理 地 址 访问 ) 。 每 个 页 表 项 包含 物理 页 号 〈 或 页 帧 号 ) 以 及 状 
态 位 和 控制 位 ， 因 此 一 个 页 表 项 可 能 是 一 个 32 位 的 字 。 每 个 活动 进程 都 有 一 个 页 表 ， 有 一 个 寄存 
器 保存 了 页 表 基 址 (PTAB)， 这 个 地 址 也 是 程序 状态 的 一 部 分 。 虚 地 址 ( VA) 分 为 两 部 分 : 虚 
页 号 (VPN) 和 页 内 偏 移 。 页 内 偏 移 并 不 作为 地 址 转换 的 一 部 分 ， 因 为 这 部 分 的 虚实 地 址 是 相同 
的 。 为 了 将 虚 页 号 转换 为 物理 页 号 ， 需 要 将 虚 页 号 〈 乘 4) 加 上 PTBA 的 内 容 去 访问 主 存 ， 取 得 
页 表 项 (PTE)， 然后 通过 将 物理 页 号 与 页 内 偏 移 连 接 起 来 就 得 到 了 物理 地 址 (PA)。 


模式 ”访问 类 型 。” 虚 地 址 : 





图 4-14 通过 页 表 进 行 地 址 转换 


4.4.4 访 存 控制 


每 次 访问 指令 或 数据 都 必须 进行 地 址 转换 ， 因 此 需要 在 页 表 项 上 增加 状态 位 来 控制 访问 。 
考虑 到 每 个 页 表 项 都 是 进程 私有 的 ， 这些 状态 位 只 能 由 本 进程 进行 设置 。 

读 / 写 /执行 (RWX) 位 用 来 进行 权限 检查 ， 它 们 标记 该 页 的 内 容 是 只 读数 据 、 可 读 可 写 
数据 还 是 可 执行 代码 。 处 理 器 有 两 种 状态 : 特权 态 和 用 户 态 ，SAU 位 用 来 记录 对 应 状态 。 当 用 
户 进程 陷入 内 核 态 时 进行 置 位 ， 当 继续 用 户 进 程 执行 时 进行 复位 。 在 特权 态 ( 内核 态 )， 处 理 
器 可 以 修改 所 有 资源 ， 包 括 页 表 。 在 用 户 态 ,访问 虚 存 中 的 页 受 限 ， 并 且 由 页 表 中 的 访问 权限 
位 控制 。 保 护 硬 件 会 检查 处 理 器 的 SAU 状态 以 及 处 理 器 提交 的 请 求 类 型 〈 读 、 写 或 执行 ) ， 在 
用 户 态 时 需要 将 请 求 类 型 与 RWX 域 比较 。 如 果 处 理 器 企图 修改 只 读数 据 ， 将 代码 当 作 数据 读 
写 或 将 数据 当 作 代码 执行 ， 处 理 器 就 会 陷 人 特权 态 。 

页 表 项 的 一 些 状 态 位 被 用 来 进行 虚 存 管理 : 

。 V 位 (有效 位 ) 表明 该 页 是 否 在 主 存 中 。 如 果 V 位 置 位 ， 则 物理 页 号 域内 就 是 该 页 的 

物理 页 号 ， 如 果 复 位 ， 则 该 页 就 不 在 主 存 中 甚至 从 未 被 使 用 过 ， 会 触发 缺 页 异常 。 

。 DD 位 ( 脏 位 ) 表明 该 页 换 入 主 存 后 是 否 被 修改 过 。 当 页 被 换 进 时 该 位 复位 ， 第 一 次 写 

该 页 时 置 位 ， 它 可 以 用 来 减少 换 出 的 数据 量 。 
。 R 位 (引用 位 ) 被 内 核 用 来 实现 蔡 换 算法 。 它 可 以 被 内 核 复 位 ， 并 且 每 次 访问 时 都 会 
置 位 。 
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可 以 增加 其 他 状态 位 来 控制 cache 内 的 访问 ， 因 为 页 表 项 的 访问 是 所 有 访 存 操作 在 访问 
cache 之 前 的 必 经 步骤 。 比 如 ,一 些 页 可 能 是 不 可 缓存 的 ， 这 种 情况 下 ， 对 它们 的 访问 可 以 绕 
过 cache。 而 不 同 的 可 缓存 页 也 可 能 有 不 同 的 写 策略 。 在 多 处 理 器 系统 中 ， 页 可 以 是 一 致 的 也 
可 以 是 不 一 致 的 ， 或 者 对 不 同 的 页 可 以 有 不 同 的 缓存 协议 。 


4. 4.5 多 级 页 表 


通常 进程 都 不 会 用 完整 个 虚拟 地 址 空间 ， 相 反 ， 如 图 4-12 所 示 ， 每 个 进程 的 虚 地 址 空间 
一 般 都 是 非常 稀 朴 的 。 由 于 页 表 按 照 图 4-14 的 方式 访问 ， 即 将 虚 页 号 加 上 一 个 基 址 ， 因 此 所 
有 的 页 表 项 都 需要 存在 主 存 中 ， 即 使 大 部 分 页 表 项 是 无 效 的 ， 这 就 是 所 谓 的 页 表 碎 片 问 题 。 例 
如 ， 一 个 4GB 的 虚 地 址 空间 包括 2” 个 4KB 的 页 ， 如 果 页 表 项 大 小 为 4B， 每 个 程序 就 需要 4MB 
的 空间 来 存放 页 表 ， 考 虑 到 有 多 个 程序 在 同时 执行 ， 这 个 开销 是 很 大 的 。 随 着 虚 页 号 位 数 的 增 
加 (比如 64 位 机 器 ) ， 内 存 的 浪费 就 更 加 严重 。 

为 了 解决 页 表 碎 片 问 题 ， 可 以 将 页 表 分 级 。 图 4-15 给 出 了 三 级 页 表 的 访问 方法 ， 虚 页 号 
被 分 为 3 部 分 ，V1，V2 和 V3,， 每 部 分 都 用 来 访问 一 级 页 表 。 通 过 PTBA 和 V1 访问 第 一 级 页 
表 。 一 个 有 效 的 一 级 页 表 项 包括 一 个 第 二 级 页 表 的 基 址 ， 通 过 V2 索引 。 一 个 有 效 的 二 级 页 表 
项 包括 一 个 第 三 级 页 表 的 基 址 ， 通 过 V3 索引 。 多 级 页 表 按 照 页 表 树 的 形式 组 织 ， 每 个 中 间 页 
表 都 包含 指向 下 一 级 页 表 的 指针 ， 包 含 物理 页 号 和 访问 控制 位 的 页 表 项 是 树 的 叶 节 点 。 


41 32 31 22 21 12 11 0 





| ”物理 页 号 。 “| 页 内 偏 移 | 
图 4-15 多 级 页 表 


不 同 级 的 页 表 项 覆盖 了 不 同 数量 的 连续 虚 存 空间 。 同 样 还 假设 页 大 小 为 4KB，VPN 每 部 分 
的 长 度 为 10 位 ， 因 此 虚 地 址 长 度 为 42 位 。 一 个 一 级 页 表 项 覆盖 了 4GB 内 存 ， 一 个 二 级 页 表 项 
覆盖 4MB 内 存 。 由 于 虚 存 空 间 十 分 稀 朴 ,只 有 少数 表 项 分 配 在 二 级 和 三 级 页 表 。 因 此 ,多 级 
页 表 需 要 的 内 存 总 量 是 几 十 KB。 如 果 用 了 一 整个 页 表 ， 如 图 4-14， 就 需要 4GB 来 存放 页 表 。、 

这 种 大 幅 的 空间 节省 主要 得 益 于 很 多 页 表 项 都 是 空 的 ， 为 了 节省 空间 就 需要 在 每 次 地 址 转 
换 时 多 访问 几 次 页 表 。 如 果 页 表 项 都 是 有 效 的 ， 那 么 多 级 页 表 会 比 单一 页 表 效果 更 差 。 因 为 随 
着 页 表 树 的 层 数 增 加 ， 定 位 次 数 和 访问 页 表 项 的 开销 也 会 随 之 增加 。 

多 级 页 表 的 结构 有 助 于 支持 超级 页 (superpage) ， 超 级 页 由 连续 的 多 个 页 面 组 成 5 当 数据 
或 代码 段 会 覆盖 很 多 页 时 ， 分 配 一 个 超级 页 给 它们 可 能 会 有 好 处 。 如 果 内 存 中 有 足够 的 连续 空 
间 , 一 个 超级 页 在 一 次 缺 页 中 就 可 以 加 载 到 内 存 。 在 多 级 页 表 中 ， 包含 物理 地 址 和 状态 位 的 页 
表 项 不 一 定 再 是 一 个 叶 节点 ， 任 何 一 层 页 表 都 可 能 包含 物理 地 址 和 状态 位 。 其 中 有 一 位 表明 该 
页 表 项 是 指向 另 一 个 页 表 的 基 址 还 是 包含 了 转换 地 址 。 例 如 ， 图 4-15 给 出 的 页 表 ,， 可 以 支持 
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两 种 超级 页 : 4MB (一 个 二 级 页 表 项 ) 和 4CB (一 个 一 级 页 表 项 )。 当 然 ， 内 存 中 必须 有 足够 
的 连续 物理 页 帧 来 存储 整个 超级 页 。 


4.4.6 反 向 页 表 


在 多 级 页 表 的 组 织 中 ， 每 个 进程 有 自己 的 一 组 页 表 ， 其 中 仍然 有 很 多 页 表 项 是 无 效 的 。 一 
个 彻底 的 解决 方法 是 改变 页 表 的 结构 ， 将 它们 反 转 过 来 。 不 再 对 应 每 个 虚 页 有 一 个 页 表 项 ， 反 
向 页 表 对 应 每 个 物理 页 帧 有 一 个 页 表 项 ,因此 它 是 所 有 进程 共享 的 ， 页 表 的 大 小 与 物理 页 帧 数 
成 正比 ， 而 不 再 与 虚拟 页 成 正比 。 这 样 做 的 动机 在 于 页 表 项 的 数目 不 会 超过 页 帧 数 。 为 了 访问 
反 向 页 表 ， 虚 页 号 通过 哈 希 的 方法 指向 共享 页 表 中 的 某 个 表 项 。 不 同 的 反 向 页 表 于 对 冲突 的 处 
理 方法 不 同 ， 冲 突 是 指 多 个 虚 页 号 有 同样 的 哈 希 值 。 因 为 页 表 是 共享 的 ， 所 有 进程 用 相同 的 虚 
地 址 访问 相同 的 页 ， 因 此 消除 了 同名 问题 。 为 了 保证 不 同 进程 的 访问 权限 ， 内 存 系统 通常 分 成 
多 个 段 ， 每 个 有 效 地 址 指向 进程 私有 的 一 个 虚 存 段 ,但 是 所 有 段 都 在 一 个 虚 存 空间 中 ， 由 所 有 
进程 共享 。 

在 PowerPC 架构 中 ， 共 享 表 的 项 数 比 页 帧 数 多 。 哈 希 函 数 得 出 的 值 指向 了 一 组 固定 的 连 
续 页 表 项 ， 有 相同 哈 希 值 的 虚 页 号 共享 这 些 页 表 项 。 这 些 页 表 项 中 的 每 一 个 都 必须 包括 页 
帧 号 和 虚 页 号 ， 并 且 需 要 逐个 搜索 比较 虚 地 址 是 否 匹 配 。 当 出 现 一 个 缺 页 ， 并 且 对 应 的 页 
表 项 已 经 满 时 ， 就 必须 换 出 一 项 。 此 时 ， 换 出 页 的 地 址 转换 信息 将 从 页 表 中 删除 ， 但 该 页 
仍 在 主 存 中 。' 


4.4.7 ” 旁 路 转换 缓冲 


多 级 页 表 是 时 间 和 空间 折 中 的 一 个 典型 例子 。 图 4-15 所 示 的 页 表 组 织 形式 ,每 次 都 需要 
访问 3 次 内 存 才能 完成 地 址 转换 。 为 了 加 快 地 址 转换 ， 页 表 项 可 以 像 数据 那样 放 人 入 cache。 由 
于 每 个 页 表 项 覆盖 了 很 大 一 块 内 存 ， 通 常 缓存 的 页 表 项 命中 率 很 高 。 不 过 ， 即 使 转换 时 每 次 都 
命中 ， 仍 需要 访问 刀 次 cache 才能 完成 一 次 转换 。 因 此 ， 人 
需要 4 次 cache 访问 ， 这 是 难以 接受 的 。 

解决 这 个 问题 的 办 法 是 用 一 块 专门 的 存储 记录 下 最 近 进 行 的 地 址 转换 ， 这 块 存储 称 为 旁 路 
转换 缓冲 (Translation Lookaside Buffer，TLB)， 或 简称 为 转换 疆 冲 (Translation Buffer，TB ) 。 
TLB 相当 于 页 表 项 的 cache, 通过 虚 页 号 进行 访问 ， 如 果 命 中 则 返回 页 表 项 。 有 效 的 TLB 项 指 
向 在 主 存 中 且 有 效 的 页 。TLB 像 cache 那样 组 织 ， 可 以 是 直接 映射 、 组 相 联 或 全 相 联 的 ， 如 
图 4-4、 图 4-5 和 图 4-6 所 示 ,: 只 是 它们 需要 通过 虚 页 号 访问 。TLB 的 每 一 项 包含 一 个 标识 
(通常 是 虚 页 号 的 最 高 几 位 ) 以 及 一 个 有 效 位 。 为 了 避免 同名 问题 ， 需 要 为 标记 加 上 扩展 的 
PID 号 。 对 应 的 内 存 数据 包括 带 有 页 帧 号 和 状态 位 的 页 表 项 。 图 4-16a 给 出 了 组 相 联 TLB 的 表 
项 。“Misc” 域 包括 一 些 额外 的 状态 位 用 来 控制 cache 访问 。TLB 也 可 能 是 全 相 联 的 。 需 注意 的 
是 ，TLB 比 cache 小 很 多 ， 命 中 率 高 很 多 ， 这 是 因为 一 个 TLB 项 覆盖 了 很 大 一 块 内 存 。 

如 图 4-16b 所 示 ， 在 一 次 访 存 中 ， 虚 页 号 的 最 低 几 位 用 来 索引 TLB 组 。PIDZVPN 标识 域 需 
要 同 当 前 PID 和 处 理 器 的 虚 页 号 进行 比较 ， 此 外 还 需要 检查 V 位 如 果 命中 :就 将 物理 页 号 发 
送 到 cache， 并 检测 TLB 项 的 状态 位 。 如 果 TLB 失效 ， 在 完成 访问 之 前 ， 必 须 将 页 表 重 新 加 载 
到 TLB 中 。TLB 失效 可 以 通过 陷 人 蜡 常 并 执行 TLB 失效 处 理 程序 来 完成 。CPU 上 执行 的 处 理 
程序 会 在 主 存 中 查找 对 应 页 表 ， 并 将 对 应 的 转换 关系 存 到 TLB 中 ， 然 后 进程 恢复 执行 ， 再 次 访 
问 时 就 会 在 TLB 中 命中 。 当 TLB 失效 处 理 程 序 在 内 存 中 发 现 缺 页 时 ， 就 会 跳 转 到 缺 页 处 理 程 
序 执行 。 这 种 方法 很 灵活 ， 因 为 页 表 的 变化 可 以 很 容易 地 通过 修改 软件 处 理 程 序 来 匹配 。 不 
过 ， 在 现在 的 乱 序 执行 处 理 器 中 ， 异 常 处 理 的 性 能 开销 非常 高 。 
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[PID| VPNtag |V| |_PPN_ [VIRIMIRWX|Misd 
TLB 目 录 项 TLB 数 据 项 ( 页 表 项 ) 
a ) 组 相 联 TLB 表 项 





b ) 虚 存 系统 中 的 存储 访问 过 程 
图 4-16 采用 TLB 的 存储 层次 


如 果 能 够 采用 特殊 的 微 代 码 和 硬件 辅助 TLB 从 内 存 中 的 页 表 直 接 加 载 页 表 项 或 更 改 状态 
位 ， 那么 TLB 失效 就 可 以 做 到 对 处 理 器 完全 透明 。 这 种 情况 下 ，TLB 需要 一 个 查 表 的 有 限 状 态 
机 (Finite State Machine，FSM) ， 如 图 4-16b 所 示 。TLB/FSM 的 结合 通常 被 称 为 是 一 个 内 存 管 
理 单元 。 如 果 TLB 失效 ， 内 存 管理 单元 (Memory Management Unit，MMU) 的 微 代码 就 会 从 页 
表 中 加 载 失 效 的 表 项 ， 然 后 访问 继续 进行 。 处 理 器 不 会 察觉 到 发 生 了 TLB miss， 只 是 内 存 访问 
的 时 间 由 于 查 表 而 延长 了 。 如 果 MMU 检测 到 发 生 了 缺 页 ， 处 理 器 就 会 陷 人 异常 处 理 。 

从 逻辑 上 讲 ，TLB 必须 位 于 处 理 器 和 cache 之 间 ， 这 样 做 带 来 的 结果 是 每 次 访问 数据 (或 
指令 ) 都 至 少 需 要 一 个 额外 的 周期 ， 这 是 我 们 不 希望 看 到 的 。 为 了 隐藏 TLB 访问 延迟 ，TLB 访 
问 和 cache 访问 可 能 流水 进行 。 图 4-17 给 出 了 在 五 级 流水 中 增加 指令 和 数据 TLB 访问 流水 级 的 
示意 图 。 增加 的 流水 级 隐藏 了 在 cache 之 前 访问 TLB 的 开销 ,但 是 延长 了 load 的 执行 时 间 和 流 
水 线 ， 当 碰 到 预测 错误 的 分 支 指令 时 ,会 导致 开销 更 大 
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4-17 增加 了 流水 访问 TLB 和 cache 的 五 级 流水 


另 一 种 方法 是 并 行 访问 TLB 和 一 级 cache， 如 图 4-18 所 示 。 并 行 访问 TLB 和 cache 是 可 行 
的 ， 因 为 访问 cache 有 两 个 阶段 (cache 索引 和 标识 比较 ) 。 假 设 Ll cache 的 组 索引 位 在 页 内 偏 
移 中 ， 那 么 这 对 物理 地 址 和 虚 地 址 都 是 相同 的 ， 也 就 是 说 这 部 分 都 是 物理 位 。 因 此 cache 访问 
的 第 一 阶段 可 以 与 TLB 转换 并 行 。 在 第 一 阶段 结束 后 ,来 自 TLB 的 物理 地 址 和 物理 cache 标识 
都 已 经 得 到 ,可 以 进行 比较 了 (假设 TLB 访问 时 间 不 比 cache 索引 时 间 长 )。 注意 I2 cache 通 
常 是 用 物理 地 址 访问 的 ， 这 是 因为 访问 I2 时 ， 虚 实地 址 转换 早已 经 完成 了 。 

并 行 访问 TLB 和 Ll cache 隐藏 了 TLB 命中 的 延迟 。 但 是 ，LL cache 的 大 小 就 会 受 页 内 偏 移 
( 即 页 大 小 ) 所 限制 。 通 过 对 地 址 索引 位 的 简单 计算 可 以 发 现 ，cache 的 相 联 度 限制 了 cache 的 
大 小 。 比 如 ， 直 接 映 射 (一 路 组 相 联 ) cache 的 最 大 容量 只 能 为 1 页 ， 同样，16 路 组 相 联 
cache 的 最 大 容量 为 16 页 。 


4.4.8 带 物 理 标识 的 虚 地 址 cache 


带 物理 标识 的 虚 地 址 cache 是 物理 地 址 cache 的 简单 扩展 ， 如 图 4-16b 和 图 4-18 所 示 。 不 
同 的 是 ， 这 里 的 cache 是 通过 虚 页 号 的 菜 几 位 来 索引 的 。 但 是 ，cache 的 标识 (tag) 仍 是 物理 
地 址 ， 二 级 cache 也 还 是 通过 物理 地 址 访问 。 
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图 4-18 ”并行 访 问 TLB 和 cache 
如 果 Ll cache 大 小 超过 上 面 的 限制 ， 则 组 号 中 最 高 几 位 用 来 索引 Ll cache 的 就 是 虚 位 ， 如 
图 4-19a 所 示 。 但 是 ， 对 应 的 物理 位 在 TLB 转换 完成 前 无 法 得 到 ， 因 为 这 几 位 在 虚实 地 址 中 的 
值 没 有 统一 的 联系 。 
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组 号 行内 偏 移 
a ) 用 物理 标识 访问 虚 地 址 cache 
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block offset 一 -一 -4 
page displacement 一 -一 


坦 索 引 一 一 一 
b ) 别名 对 组 选择 的 影响 ( 超 集 大 小 为 4 ) 


图 4-19 带 物理 标识 的 虚 地 址 cache 
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由 于 同名 的 存在 ， 这 个 问题 变 得 很 严重 。 如 果 每 个 cache 块 都 由 相同 的 虚 地 址 访问 ， 则 总 
会 索引 到 同一 组 ， 尽 管 实 际 上 按照 物理 地 址 可 能 并 不 会 访问 到 这 一 组 。 由 于 同名 问题 ， 不 同 的 
虚 地 址 可 能 索引 同一 个 内 存 块 。 在 软件 多 线程 的 情况 下 这 是 可 能 发 生 的 : 不 同 的 进程 轮流 使 用 
不 同 的 虚 地 址 访问 这 一 块 。 或 者 也 可 能 发 生 在 硬件 多 线程 处 理 器 中 ， 一 个 处 理 器 上 多 个 线程 并 
发 地 执行 ， 利 用 不 同 的 同名 共享 该 内 存 块 。 最 后 ， 在 多 核 系统 中 ， 不 同 处 理 器 上 的 进程 也 可 能 
用 别名 访问 同一 块 。 

这 里 的 主要 问题 是 一 致 性 。 如 果 cache 总 是 按照 虚 地 址 来 对 组 进行 索引 ， 则 cache 中 可 能 
会 有 内 存 块 的 多 个 备份 ， 这 会 造成 一 致 性 问题 。 当 在 cache 中 发 生 访 问 失效 时 ， 同 一 块 由 于 不 
同 的 虚 地 址 可 能 存在 于 cache 中 不 同 的 组 。cache 可 能 会 从 L2 cache 中 加 载 所 需 的 块 ， 导 致 同一 
块 在 不 同 的 组 中 有 两 个 备份 。 对 一 个 备份 的 修改 不 会 影响 另 一 个 备份 ， 因 此 在 同一 cache 中 出 
现 了 一 致 性 问题 。 

虚 地 址 中 索引 cache 的 位 称 为 超 组 位 〈superset bit) ， 超 组 由 虚 地 址 cache 中 块 备份 可 能 映 
射 到 的 所 有 组 所 构成 。 当 发 生 失 效 时 ， 块 备份 可 能 在 超 组 中 的 任何 一 组 ， 这 是 因为 对 同名 问题 
没有 限制 。 将 用 来 索引 cache 组 的 虚 位 可 能 产生 的 所 有 组 号 结合 起 来 就 组 成 了 超 组 。 在 
图 4-19b 中 ， 两 个 虚 地 址 共享 一 个 物理 地 址 ， 两 组 超 组 位 可 能 有 所 不 同 ， 因 此 会 指向 不 同 的 
cache 组 。 

由 于 同名 问题 ， 在 同一 个 虚 地 址 cache 中 ， 一 个 块 的 多 个 备份 可 能 同时 存在 并 被 访问 。 对 
于 只 读 的 块 ， 所 有 的 备份 都 是 一 样 的 ， 尽 管 多 个 备份 浪费 了 cache 空间 ， 但 没有 破坏 一 致 性 。 
对 于 可 读 写 块 ， 处 理 器 可 能 会 访问 到 旧 的 块 。 在 图 4-19b 的 例子 中 ， 如 果 在 地 址 PA 处 的 变量 
了 是 可 写 的 ,并且 连 续 被 VA1 和 VA2 两 个 虚 地 址 访问 ， 如 果 CPU 修改 VA2 对 应 的 备份 ， 则 
cache 中 会 出 现 两 个 不 一 致 的 备份 。 这 种 情况 下 ， 除 非 给 备份 增加 时 间 惟 ， 否 则 无 法 记录 最 近 
访问 的 备份 ， 即 使 有 时 间 戳 ,每 次 load 都 要 在 整个 超 组 中 查找 最 近 的 备份 也 是 不 现实 的 。 因 
此 ,不 同 别 名 对 应 的 同一 块 在 一 个 cache 中 不 能 存在 多 个 备份 。 

别名 必须 进行 动态 检查 。 所 有 了 映射 到 同一 组 的 同名 都 可 以 正确 命中 ， 因 此 ， 在 命中 时 不 需 
要 别名 检查 。 当 将 块 加 载 到 cache 时 ， 如 果 失 效 必须 进行 同名 检查 。cache 控制 器 必须 检查 超 组 
中 的 所 有 组 以 找 出 同名 ， 这 个 检查 过 程 可 以 与 取 失 效 块 并 行 执行 ， 这 一 过 程 非常 高 效 ， 因 为 它 
可 以 使 用 正常 cache 访问 的 索引 和 硬件。 如果 块 已 经 在 其 他 cache 中 , 但 是 使 用 的 是 别名 ， 我们 
称 这 种 失效 为 短 失效 (short miss) 。 这 种 情况 下 ， 不 需要 从 内 存 中 取 块 ， 而 只 需 移动 cache 内 
两 个 不 同 组 的 块 。 

当 超 组 很 大 时 ， 则 检查 整个 超 组 是 不 现实 的 。 另 一 种 动态 检查 别名 的 方法 是 维护 一 个 
cache 的 反 向 表 ， 它 需要 用 物理 地 址 而 不 是 虚 地 址 访问 。 一 个 常用 的 解决 方法 是 基于 可 用 物理 
地 址 访问 的 双重 cache 目录 。 理 想 情况 下 ; 可 以 假设 一 个 全 相 联 的 双重 目录 ， 目 录 项 数 同 cache 
目录 项 数 相 同 ， 双 重 目录 通过 物理 地 址 访问 ,并且 包 括 一 个 指向 cache 行 的 反 向 指针 。 当 Ll 
cache 失效 时 ， 通 过 从 TLB 得 到 的 物理 地 址 访问 双重 目录 。 如 果 存 在 有 效 的 指向 cache 的 反 向 、 
指针 ， 则 表明 有 同名 存在 。 双 重 目录 也 可 以 是 组 相 联 的 ;- 且 两 个 目录 可 能 采用 不 同 的 组 织 方 
式 。 当 一 个 新 块 被 加 载 到 cache 中 时 ， 必 须 在 两 个 目录 中 都 找到 空 表 项 ， 这 可 能 会 导致 cache 
中 的 两 个 块 被 换 出 (成 对 换 出 ) ， 因 为 所 有 有 效 的 cache 块 必须 在 双重 目录 中 都 有 有 效 的 反 向 
指针 。 在 双重 目录 中 被 换 出 的 表 项 对 应 的 cache 块 也 要 从 cache 中 换 出 ， 这 种 做 法 在 单 处理 器 
系统 中 代价 很 高 ， 但 在 采用 侦 听 协议 的 基于 总 线 的 多 处 理 器 中 可 以 应 用 ， 这 种 系统 通常 需要 双 
重 目录 来 维护 一 致 性 。 

假设 cache 之 间 采 用 包含 关系 ， 反 向 指针 也 可 能 在 二 级 cache 中 维护 。 二 级 cache 按照 物理 
地 址 访问 ， 因 此 ， 二 级 cache 表 项 可 以 记录 某 块 是 否 在 Ll cache 中 ， 这 种 情况 下 ， 会 包含 一 个 
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指向 L1 cache 行 的 反 向 指针 。LIl cache 的 失效 会 访问 二 级 cache， 如 果 反 向 指针 指向 Ll 中 的 另 
一 行 ， 则 L2 cache 返回 这 个 指针 ，L1l 控制 器 执行 短 失效 处 理 。 这 种 短 失效 的 延迟 同 L1 失效 [2 
命中 的 开销 一 样 。 

通过 超 组 搜索 的 形式 ， 硬 件 可 以 动态 检测 重 名 ， 包 括 双 重 目 录 或 者 L2 中 的 反 向 指针 ， 这 
种 机 制 也 称 为 反 别 名 硬件 (antialiasing hardware ) 。 

最 后 ， 软 件 解决 同名 问题 的 方法 称 为 页 着 色 。 页 的 颜色 就 是 超 组 位 的 值 ， 如 果 操 作 系统 保 
证 所 有 同名 页 有 相同 的 颜色 ， 则 所 有 同名 会 索引 到 相同 的 组 。 


4.4.9 带 虚 标识 的 虚 地 址 cache 


概念 上 ， 可 以 将 TLB 移 到 一 级 cache 之 后 ， 这 是 解决 虚 存 开销 的 一 种 有 效 方法 ， 如 图 4-20 
所 示 。 在 这 种 结构 中 ,Ll cache 通过 虚拟 地 址 位 访问 〈 不 只 是 索引 ) ，L1 中 的 标识 也 是 虚拟 
的 。 二 级 cache 仍 是 按 物理 地 址 访问 ， 位 于 TLB 转换 之 后 。 因 此 唯一 需要 虚实 地 址 转换 的 是 出 
现 LI 失效 时 ，TLB 失效 仍然 可 以 当 作 是 处 理 器 异常 或 通过 MMU 处 理 。 这 样 做 的 主要 优点 是 
TLB 不 再 处 在 访 存 关键 路 径 上 ， 并 且 可 以 做 得 很 大 ， 从 而 带 来 更 高 的 命中 率 。 





图 4-20” 使 用 虚 标 识 访问 虚 地 址 cache 


但 是 ， 这 种 方法 在 硬件 和 软件 上 都 很 难 实现 。 在 硬件 层面 ， 反 别名 硬件 更 加 复杂 ， 尽 管 带 
实 标 识 的 虚 地 址 cache 的 基本 解决 方法 仍然 适用 。 此 外 ， 由 于 页 表 和 TLB 中 的 页 表 项 的 状态 位 
在 cache 命中 时 不 会 被 访问 ， 因 此 必须 在 每 个 Ll 的 cache 行 中 都 维护 。 这 非常 关键 ， 尤 其 是 
RWX 位 。 最 后 ， 软 件 必须 熟悉 cache 内 容 ， 并 且 在 很 多 情况 下 要 换 出 部 分 cache。 


习题 
4.1 本 题 涉及 cache 失效 、 结 构 冲 突 以 及 乱 序 处 理 器 中 的 非 阻 塞 cache 行为 。 考 虑 如 下 的 简单 程序 片段 : 
LOOP: LW R4,0(R3) 


ADDI R3,R3,#4 
RDD R1,R1,R4 
BNE R3,R5,LOOP 


(a) 代码 在 如 图 3-23 的 Tomasulo + 推测 执行 的 机 器 上 执行 ，ROB 有 8 项 ,并 县 一 旦 ROB 满 了 ， 就 
停止 分 配 ， 以 免 发 生 结 构 冲 突 。 当 最 老 的 指令 退出 后 又 有 一 个 新 的 ROB 表 项 变 为 可 用 。 
数据 cache 是 非 阻 塞 的 ， 并且 有 一 个 RAW 访问 端口， 因此 ， 所 有 的 cache 访问 在 达到 访问 端口 
时 都 是 串 行 执行 的 。 命 中 返回 数据 以 及 失效 时 查找 cache 都 需要 一 个 周期 ， RAW 端口 在 失效 
后 返回 load 值 时 也 处 于 忙碌 状态 。Miss 对 应 的 延迟 是 9 个 周期 ， 因 此 当 命中 时 只 需要 1 个 周 
期 ， 而 出 现 miss 时 ， 则 总 共 需 要 10 个 周期 。 一 旦 初次 失效 执行 完成 ， 对 同一 块 的 二 次 失效 由 
CDB 上 的 cache 控制 器 来 处 理 ， 每 个 周期 可 以 处 理 一 个 失效 。 当 cache 失效 时 ，CDB 上 返回 的 
数据 的 优先 级 低 于 其 他 指令 返回 的 值 。 本 题 中 假定 cache 大 小 为 32KB, 采取 直接 映射 ， 每 个 
块 大 小 8 字 节 (2 个 字 )， 因 此 在 本 题 程序 中 ,一 个 初次 失效 后 会 有 一 个 二 次 失效 。 假 定 cache 
初始 为 空 ， 表 4-1 给 出 了 前 5 个 周期 的 执行 状况 。 在 Dispatch 这 一 列 ， 括 号 内 给 出 了 占用 的 
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ROB 项 ， 这 个 数字 永远 小 于 8。 请 给 出 前 4 次 和 迭代 对 应 的 表 项 变化 情况 ， 假 设 分 支 预测 结果 总 
是 跳 转 。 


表 4-1 带 推测 的 Tomasulo 算法 (无 预 取 ) 














(b) 为 了 避免 失效 ， 向 代码 中 插入 新 的 非 约束 性 预 取 指令 。 新 的 指令 形式 为 PW d(R)， 基 中 以 表 
示 偏 移 量 ，R 表示 基 址 。 这 条 指令 向 cache 中 加 载 一 个 块 ， 但 不 向 CDB 返回 数据 ， 也 不 需要 
Retire， 预 取 产 生 的 所 有 异常 都 被 丢弃 。 新 的 代码 如 下 : 

LOOP : LW R4,0(R3) 
PW 8(R3) 
ADDI R3,R3,#4 
ADD R1,R1,R4 
BNE R3,R5,LOOP 


当 预 取 在 cache 中 命中 时 ， 或 者 是 二 次 失效 时 ， 就 忽略 本 次 预 取 。 请 给 出 表 4-2 中 对 应 前 4 次 
和 迭代 的 变化 情况 ， 并 判断 预 取 是 否 对 性 能 有 所 提高 。 


表 4-2 带 推测 的 Tomasulo 算法 ( 带 预 取 ) 


; ;7 
wo a oH Tw es | 
one em mle ey | | | | 





i i i i i a i 





4.2 本 题 中 讨论 设计 支持 虚 存 的 结构 并 确定 其 大 小 。 假 定 机 器 的 虚 地 址 是 42 位 ， 并 且 配 置 有 256MB 物 
理 内 存 。 机 器 字 大 小 为 64 位 (8 字 节 ) ， 地 址 按 字 节 编 址 并 且 按 字 节 对 齐 。 用 下 面 的 标记 来 表示 一 
个 i 位 的 地 址 : Ai -1…A2A1A0， 其 中 人 -1 是 最 高 位 ，A0 是 最 低位 。 虚 地 址 表示 为 V41 ~ V0， 物 
理 地 址 表示 为 P27-P0。 
(a) 假定 页 表 如 下 配置 : 

页 大 小 : 4KB 

页 表 : 三 级 页 表 ， 虚 页 号 分 为 3 部 分 , 分别 为 8 位 、11 位 、11 位 

页 表 项 : 32 位 (4 字 节 ) 

(1) 虚 地 址 中 的 哪些 位 用 于 索引 第 一 级 页 表 ? 

(2) 虚 地 址 中 的 哪些 位 用 于 索引 最 后 一 级 页 表 ? 

(3) 每 级 页 表 的 大 小 是 多 少 〈 以 字 节 为 单位 )? 

(4) 每 级 页 表 项 所 能 覆盖 的 虚 地 址 空间 是 多 少 ? 

假定 TLB 如 下 配置 : 

TLB 大 小 : 256 项 


(b 


— 
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TLB 组 织 方式 : 两 路 组 相 联 
(1) 虚 地 址 的 哪些 位 用 于 索引 TLB? 
(2) 虚 地 址 的 哪些 位 用 作 TLB 标识 (tag)? 
(3) TEB 的 标识 大 小 是 多 少 ? 
(c) 假定 二 级 cache 如 下 配置 : 
cache 大 小 : SMB 
块 大 小 : 64 字 节 
组 大 小 : 每 组 10 个 cache 行 
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二 级 cache 用 物理 地 址 访问 ,每 个 数据 RAM 列 的 宽度 为 64 位 (一 个 字 )。 


(1) 物理 地 址 的 哪些 位 用 来 索引 标识 RAM? 
(2) 物理 地 址 的 哪些 位 用 来 索引 数据 RAM? 
(3) 标识 大 小 是 多 少 ? 

(d) 一 级 cache 配置 如 下 : 
一 级 cache 为 虚 地 址 索引 物理 标识 ， 三 路 组 相 联 
一 级 cache 大 小 : 96KB 
块 大 小 : 16 字 节 
组 大 小 : 每 组 3 个 块 
数据 RAM 列 的 宽度 为 64 位 。 
(1) 虚 地 址 的 哪些 位 用 来 索引 标识 RAM? 
(2) 虚 地 址 的 哪些 位 用 来 索引 数据 RAM? 


(3) 物理 地 址 的 哪些 位 与 标识 RAM 中 的 tag 进行 比较 ? 

(4) 在 一 级 cache 中 ， 由 于 同名 的 原因 可 能 存在 一 致 性 问题 ,解决 方法 之 一 是 在 每 次 失效 时 
检查 所 有 可 能 包含 该 块 的 组 ， 这 种 情况 下 请 问 总 共 需 要 检查 多 少 个 组 ? 

(5) 另 一 种 解决 同名 问题 的 方法 是 页 着 色 ， 请 问 需要 多 少 位 来 定义 页 的 颜色 ? 


本 题 主要 涉及 支持 大 块 虚 地 址 空间 的 页 表 结 构 。 假定 
有 一 个 42 位 虚 地 址 空间 、256MB 物理 内 存 的 机 器 ， 页 
大 小 为 4KB， 页 表 项 为 4 字 节 。 页 表 可 以 有 多 种 层次 
结构 : 一 级 、 二 级 或 者 三 级 。 需 要 映射 的 虚 地 址 空间 
由 图 4-21 给 出 。 内 核 地 址 空间 不 需要 转换 ， 因 为 这 部 
分 的 物理 地 址 与 虚 地 址 相同 。 不 过 其 他 段 的 地 址 都 需 
要 转换 。 
(a) 车 只 有 一 级 页 表 ， 页 表 大 小 是 多 少 ? 
(b) 假设 采用 二 级 页 表 。30 位 虚 页 号 分 为 2 个 15 位 ， 
则 总 共和 需要 多 少 个 页 表 ? 页 表 的 总 大 小 为 多 少 ? 
(c) 假定 采用 三 级 页 表 , 将 30 位 岂 页 号 分 为 3 个 10 
位 ， 重 做 问题 (b) 。 
什么 是 伪 LRU 算法 ? 上 网 找 一 篇 介绍 伪 LRU 算法 的 文 
章 ， 以 包含 4 个 cache 行 的 cache 结构 为 例 解释 其 工作 
过 程 ， 并 说 明 其 相对 于 LRU 算法 的 好 处 。 


0 









内 核 ( 8MB ) 


代码 ( 64KB ) 


动态 数据 ( 2MB ) 
静态 数据 ( 4MB ) 


图 4-21 ， 虚 地 址 空间 映射 


本 题 讨论 当 内 存 访问 呈 周 期 性 变化 时 的 cache 映射 和 替换 策略 。 在 指令 访问 〈 比 如 循环 ) 或 跨 步 数 


据 访 问 时 ， 这 种 周期 性 的 访 存 操作 非常 常见 。 


一 级 指令 cache 通常 是 直接 映射 的 ， 并 不 只 因为 直接 映射 在 命中 时 开销 小 ， 还 因为 它 比 组 相 联 


更 适合 处 理 循环 。 


假设 cache 有 4 行 (0，1，2，3) ， 周 期 性 地 访问 块 地 址 (0，1, 2，3，4，5)"， 上 述 标记 表 
示 按 序 访问 块 0，1，2,， 3,，4，5 并 重复 10 次 。 我 们 将 失效 分 为 冷 失效 、 容 量 失 效 和 冲突 失效 。 容 
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量 失 效 基于 采用 LRU 替换 策略 的 全 相 联 (FA) cache 计算 得 到 ，cache 初始 为 空 。 

(a) 计算 下 列 情形 下 的 cache 总 失效 次 数 : 直接 映射 ,采用 LRU 替换 策略 的 FA， 采 用 FIFO 替换 
策略 的 FA, 采用 LIFO (后 进 先 出 ) 替换 策略 的 FA， 采 用 LRU 的 两 路 组 相 联 cache。 

(b) 基于 (a) 的 结果 ， 每 种 cache 中 ,， 冷 失效 、 容 量 失效 和 冲突 失效 的 次 数 各 为 多 少 ? 

(ce) 考虑 采用 最 优 替 换 策 略 的 FA cache。 尽 管 实际 无 法 实现 ,但 是 最 优 策略 可 以 保证 最 高 的 命中 

率 ， 最 优 替 换 策 略 总 是 可 以 替换 掉 未 来 最 久 不 会 被 访问 的 块 。 我 们 引入 一 个 块 距 离 的 定义 ， 

它 表 示 块 的 当前 访问 和 下 一 次 访问 之 间 还 访问 了 多 少 其 他 的 不 同 块 ， 因 此 ， 在 最 优 替 换 策略 

中 ， 我 们 总 是 替换 块 距 离 最 大 的 块 。 假 设 所 有 块 在 访问 序列 的 最 后 都 额外 再 访问 一 次 。 如 果 

有 多 个 块 的 块 距离 相同 ， 那么 就 从 中 随机 选择 一 个 进行 替换 。 这 样 的 话 可 能 会 出 现 不 同 的 替 

换 序列 ,但 是 失效 率 是 相同 的 。 请 问 如 果 FA cache 采用 OPT 策略 ， 总 共 会 产生 多 少 次 失效 ? 
(d) 对 (a) 中 的 所 有 cache， 计算 其 冲突 失效 次 数 。 假 定 计算 容量 失效 的 FA cache 是 采用 最 优 蔡 

换 策 略 的 FA cache。 

本 题 根据 给 定 的 访问 序列 ， 比 较 不 同 的 替换 策略 。 考 虑 下 面 的 访问 序列 ， 每 个 字母 代表 一 个 块 
地 址 : 

aabcaadeffefefefabgcaef 
(a) 假设 采用 全 相 联 的 4 行 cache，cache 初始 为 空 ， 计 算 采 用 下 列 替换 策略 下 的 失效 率 

e LRU。 

e FIFO。 

。 伪 LRU (参见 习题 4.4)。 

。 最 不 经 常 使 用 (least frequently used，LFU)。LFU 替换 策略 中 ， 记 录 对 每 个 块 的 访问 次 数 ， 
替换 访问 次 数 最 小 的 块 。 如 果 出 现 多 个 块 访问 次 数 相 同 ， 则 随机 替换 一 个 。 本 题 中 ， 为 了 
保证 结果 的 一 致 性 ， 当 出 现 访问 次 数 相同 时 ， 采 用 LRU 替换 一 个 。 

。 最 优 蔡 换 策 略 。 

(b) 计算 下 列 情 况 于 每 个 cache 的 冲突 失效 次 数 。 

。 计算 容量 失效 次 数 ， 基 于 LRU 替换 策略 的 FA cache。 

。 计算 容量 失效 次 数 ， 基 于 最 优 替换 策略 的 FA cache。 

天 多 数 科学 计算 应 用 包含 矩阵 运算 ， 最 常见 的 矩阵 运算 是 矩阵 乘法 
=Y*Z 
式 中 , 互 ， 7，Z 都 是 和 N 乘 NN 的 矩阵 。 

如 果 头 的 元 素 按 行 计算 ，L1 cache 太 小 ,无 法 放下 整个 Z 矩阵， 那么 计算 站 的 每 行 时 都 要 重 
新 加 载 矩阵 Z， 这 导致 总 的 cache 失效 次 数 达 到 NV 。 为 了 降低 cache 失效 率 ， 编 译 器 可 以 进行 矩阵 
分 块 乘法 。 

假设 全 相 联 数据 cache 采用 LRU 替换 策略 ， 和 矩阵 大 小 为 256 x 256。 每 个 元 素 是 一 个 双 精 度 浮 
点 数 (8 字 节 )。 简 单 起 见 ， 假设 cache 块 大 小 为 8 字 节 ,并 且 操 作 数 是 对 齐 的 。 

(a) 计算 数据 cache 的 总 失效 次 数 ， 假 设 数据 cache 大 小 为 128KB。 为 了 计算 失效 率 ， 忽略 程序 中 

的 整数 访问 ， 只 关心 浮 点 访问 ， 同 时 计算 总 的 操作 次 数 〈 浮 点 加 法 和 浮 点 乘法 ) 。 ， 
(b)- 为 子 降低 失效 率 ;， 一 名 搏 士 生 认为 可 以 对 算法 进行 重 构 ， 这 个 学 生 认 为 将 矩阵 分 块 为 N/k x 

NA (kk 是 2 的 短 ) 的 子 矩 阵 相 乘 ， 由 于 :cache 很 容易 放下 多 个 子 矩 阵 ， 因 此 执行 时 间 和 失效 

率 都 会 得 到 改进 。 

比如 ， 当 k=2 时 ， 原 矩阵 相 乘 变 为 一 组 W2 x W2 的 和 矩阵 乘法 和 加 法 。 

ss | Ee Wn 2 eh 2 
现 二 -222 


X21 X22 221 | 222 
pb eg rt th ee Yll x 2Z12 + Y12 | 
X21 X22 Y21 x Zl1l + Y22 x 221 Y21 x Z12 + Y22 x 222 


假设 cache 大 小 128KB， 请 给 出 可 以 将 失效 率 降 至 最 低 的 分 块 算法 ,并 计算 总 的 失效 次 数 ， 同 
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时 计算 总 操作 次 数 〈 浮 点 加 法 和 浮 点 乘法 ) 。 
(c) 考虑 由 cache 失效 引起 的 芯片 VO 次 数 以 及 总 的 计算 操作 次 数 ， 并 判断 这 个 博士 生 的 做 法 是 否 
可 取 。 
考虑 将 内 存 中 向 量 进行 累加 的 简单 程序 ， 其 代码 如 下 : 
LOOP : LW R4,0(R3) 
ADDI R3,R3,stridex4 /stridex4: 跨 距 乘 4 
RDD R1,R1,R4 
BNE R3,R5,LOOP 


跨 距 (stride) 是 指 两 个 相 邻 向 量 元 素 之 间 的 索引 值 的 差 。 将 它 乘 4 可 以 得 到 相 邻 的 下 一 个 元 

素 的 地 址 。 

我 们 分 别 在 支持 阻塞 和 非 阻 塞 数据 cache 的 五 级 流水 线 上 评估 循环 执行 效率 。 当 遇 到 跳 转 的 分 

支 时 清空 取 指 和 译 码 流水 级 。 

本 题 中 的 cache 采用 直接 映射 ， 初 始 为 空 ， 块 大 小 为 64KB。 假 设 循环 的 迭代 次 数 很 大 (向量 

元 素 多 达 数 百 万 个 ) 。 

起 初 ， 假 设 Ll 失效 的 延迟 为 30 个 周期 , 记 住 LW 指令 先 访问 cache， 如 果 失 效 ， 则 流水 线 停 

顿 30 个 周期 ， 然 后 继续 。 

(a) 先 考 虑 阻塞 式 cache 的 情况 。 计 算 循 环 每 次 迭代 的 平均 执行 时 间 〈 以 时 钟 周期 为 单位 ) ， 时 间 
表示 为 以 跨 距 为 变量 的 函数 。 

(b) 接 下 来 我 们 采用 一 个 简单 的 非 阻塞 cache， 在 这 种 cache 中 ， 当 预 取 失 效 尚未 处 理 完成 时 仍然 
可 以 继续 执行 load 命中 。 预 取 操 作 在 流水 线 中 的 执行 类 似 于 load 操作 ,区别 在 于 : @ 预 取 不 
返回 值 ; @ 即 使 cache 预 取出 现 失效 ， 也 不 会 阻塞 流水 线 。 在 本 题 中 ， 只 要 load 出 现 失效 ， 流 
水 线 就 会 停顿 ， 一 直到 失效 解决 或 者 之 前 未 完成 的 失效 预 取 已 经 返回 cache， 此 时 load 操作 可 
以 提交 退出 。 新 的 预 取 指令 表示 为 PW d(R) 的 形式 ,其 中 d 表示 偏 移 量 ，R 表示 基 址 。 若 预 
取出 现 初次 失效 ， 则 cache 控制 器 从 下 一 级 cache 中 取 数 据 块 ， 若 预 取 命 中 或 者 是 二 次 失效 ， 
则 cache 控制 器 放弃 预 取 操 作 。 此 外 ， 所 有 碰 到 异常 的 预 取 也 将 被 放弃 。 
假定 如 下 代码 ; 

LooP : LW R4,0(R3) 
PW stridex4 (R3) 
ADDI R3,R3,stridex4 
ADD RI1,R1,R4 
BNE R3,R5,LOOP 


计算 循环 每 次 迭代 的 平均 执行 周期 ( 以 时 钟 周期 为 单位 ) ， 时 间 表 示 为 以 跨 距 为 变量 的 函数 。 
如 何 能 够 确定 什么 时 候 预 取 是 有 效 的 ? 预 取 的 有 效 性 是 否 可 以 表示 成 由 跨 距 、 块 大 小 以 及 失 
效 延迟 组 成 的 函数 ， 通 常 的 平衡 点 在 哪里 ? 


有 


(e 


— 
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5.1 概述 


自从 计算 机 系统 诞生 以 来 ， 人 们 对 性 能 的 需求 就 成 为 计算 机 体系 结构 演变 最 重要 的 驱动 
力 。 特 别 是 单一 《〈 串 行 ) 处 理 器 核 已 经 无 法 满足 许多 重要 应 用 的 需求 时 ， 并 行 体 系 结构 技术 
应 运 而 生 。 例 子 之 一 是 用 于 计算 机 仿真 的 数值 程序 ， 这 类 程序 从 科学 和 工程 的 角度 分 析 问 题 和 
解决 问题 ， 比 如 气候 建 模 、 天 气 预 报 、 计 算 机 辅助 设计 等 。 另 一 个 例子 是 商业 系统 ， 这 类 系统 
中 需要 支持 大 量 的 独立 查询 操作 ， 以 适应 信息 时 代 日 益 增长 的 用 户 需求 。 多 年 来 ， 促 进 并 行 体 
系 结构 发 展 的 另 一 个 原因 是 即将 到 来 的 技术 壁垒 可 能 会 导致 串 行 计算 机 的 性 能 增长 出 现 停滞 。 
上 述 两 个 原因 推动 了 多 处 理 器 架构 的 研究 ， 并 且 在 21 世纪 初 ， 多 处 理 器 技术 开始 转向 多 核 
技术 。 

本 章 主要 介绍 多 处 理 器 系统 的 设计 原则 ， 集 中 讲述 了 两 种 不 同 的 多 处 理 器 架构 : 共享 内 存 
多 处 理 器 系统 和 消息 传递 多 处 理 器 系统 。 这 两 种 架构 都 使 用 了 多 处 理 器 ， 通 过 增加 处 理 器 数量 
实现 计算 能 力 的 线性 增加 。 两 者 的 区 别 在 于 : 处 理 器 交换 数据 的 方式 不 同 。 在 共享 内 存 多 处 理 
器 系统 中 ， 多 个 处 理 器 共享 相同 的 地 址 空间 ， 而 且 通 过 在 共享 内 存单 元 用 常规 的 load 和 store 
指令 实现 处 理 器 间 的 数据 交换 ;而 在 消息 传递 多 处 理 器 系统 中 ， 各 处 理 器 有 自己 的 〈 私 有 的 ) 
地 址 空间 ， 它 们 通过 交换 消息 实现 数据 通信 。 

要 想 充分 理解 多 处 理 器 系统 庞大 的 设计 空间 ,很 重要 的 一 点 是 先 要 抽象 出 提供 给 软件 的 接 
口 。 不 管 是 什么 样 的 并 行 体系 结构 模型 ， 软 件 编程 都 必须 显 式 地 体现 出 并 行 性 。 能 够 并 行 的 计 
算 任 务必 须 先 被 识别 出 来 ， 然 后 均衡 分 配 到 各 个 处 理 器 上 执行 。 在 这 个 过 程 中 ， 必 须 深 刻 理解 
任务 间 的 依赖 和 任务 间 进 行 结果 传递 的 通信 需求 ， 这 些 统称 为 协调 。 同 步 和 通信 的 原 语 是 由 底 
层 结构 支持 并 提供 给 软件 调用 的 重要 组 成 部 分 。 我 们 首先 分 析 共 享 内 存 多 处 理 器 和 消息 传递 多 
处 理 器 系统 的 编程 模型 ， 然 后 介绍 这 一 过 程 中 需要 引入 的 原 语 。 在 共享 内 存 多 处 理 器 系统 中 ， 
其 所 提供 的 固有 的 共享 内 存 地 址 空间 能 够 直接 支持 通信 机 制 ， 但 仍 需要 显 式 地 支持 同步 。 另 一 
方面 ， 在 消息 传递 系统 中 ， 需 要 为 同步 和 通信 都 提供 显 式 的 原 语 : 发 送 和 接收 原 语 。 在 本 章 
中 ， 将 介绍 这 些 原 语 、 协 议 以 及 为 加 快 消息 处 理 的 相关 结构 支持 。 

本 章 的 大 部 分 篇 幅 讲解 共享 内 存 多 处 理 器 的 设计 原则 ， 因 为 这 是 当前 主流 的 片上 多 处 理 器 
系统 。 共 享 内 存 多 处 理 器 的 设计 核心 环节 是 内 存 系统 以 及 如 何在 内 存 系统 中 高 效 地 向 软件 传达 
语义 。 为 此 ， 文 中 对 比 了 各 种 cache 组 织 形式 ， 介 绍 了 cache 一 致 性 的 基本 概念 。 虽 然 同 一 个 
内 存单 元 可 能 在 系统 的 不 同 cache 中 都 存 有 副本 ， 但 通过 cache 一 致 性 的 支持 ， 就 好 像 整个 
系统 中 只 有 一 块 存储 器 一 样 ， 数 据 始终 保持 一 致 。 不 过 ， 要 想 做 到 性 能 较 好 同时 复杂 度 又 
可 接受 ， 实 现 cache 一 致 性 是 一 项 非常 有 挑战 性 的 工作 ， 本 章 将 系统 地 讨论 各 种 常见 实现 
方案 。 

本 章 涵盖 的 主要 内 容 如 下 : 

。 5.2 节 主 要 概括 介绍 共享 内 存 多 处 理 器 和 消息 传递 多 处 理 器 的 编程 模型 。 

。 5.3 节 主 要 介绍 消息 传递 原 语 的 语义 ， 支 持 这 些 语 义 所 需 的 协议 ， 以 及 支持 加 速 消 息 

处 理 的 体系 结构 。 
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e 5.4 节 主要 介绍 cache 一 致 性 的 概念 ， 基 于 侦 听 的 cache 一 致 性 协议 设计 ， 以 及 TLB 一 
致 性 策略 。 

e 5.5 节 介 绍 可 扩展 的 共享 内 存 系统 ， 其 重点 在 于 可 应 用 于 大 规模 系统 的 cache 一 致 性 解 
决 方案 设计 ， 以 及 可 挖掘 局 部 性 的 页 面 映射 软件 技术 。 

e 5.6 节 主 要 介绍 全 cache 内 存 系 统 (COMA) 的 设计 原则 。 


5.2 并 行 编程 模型 

并 行 编程 模型 (paralleL programming model) 定义 了 如 何 使 用 高 级 编程 语言 来 表达 并 行 计 
算 。 直 到 转 人 多 核 架 构 以 后 ， 并 行 计算 机 才 获 得 足够 的 吸引 力 。 并 行 编程 模型 通常 在 常用 编程 
语言 如 /C/C++ 或 者 Fortran 等 的 基础 上 进行 简单 的 扩展 一 一 通常 借助 于 应 用 编程 接口 ( API) 
来 实现 。 重 要 的 语言 扩展 包括 消息 传递 系统 的 消息 传递 接口 ( MPI) 和 共享 内 存 系 统 的 
OpenMP， 这 两 类 模型 吸引 了 人 们 对 并 行程 序 设计 的 关注 。 由 于 并 行 编程 模型 具有 快速 和 对 多 
核 计 算 机 广泛 适应 性 的 特点 ， 因 此 其 研究 是 一 个 热门 话题 ， 预 计 更 高 效 的 编程 模型 仍 将 在 未 来 
几 年 内 出 现 。 我 们 使 用 了 已 经 成 熟 的 并 行 编程 模型 作为 基础 ， 并 以 此 为 框架 讨论 需要 提供 给 现 
有 并 行 计 算 机 的 硬件 /软件 接口 的 原 语 ， 本 节 的 目的 是 突出 它们 的 关键 特性 ， 以 验证 本 章 后 面 
所 涵盖 的 主流 体系 结构 的 原 语 实现 过 程 。 

无 论 是 共享 内 存 还 是 消息 传递 的 并 行 计算 机 体系 结构 ， 程 序 员 或 编译 器 必须 能 够 表述 出 并 
行 机 制 。 具 体 包 插 两 部 分 : 工作 分 配 (work partitioning) 和 协调 (coordination ) 。 工 作 分 配方 
面 ， 可 以 并 行 执行 的 工作 必须 能 被 识别 且 分 配给 各 处 理 器 。 本 书 中 使 用 线程 或 进程 说 明代 码 运 
行 在 并 行 计 算 机 的 一 个 处 理 器 〈 或 核 ) 中 。 线 程 通常 是 共享 内 存 多 处 理 器 如 多 核 微 处 理 器 中 
使 用 的 术语 ， 而 进程 常用 于 基于 消息 交换 实现 通信 的 并 行 计算 机 。 协 调 方面 ， 通 过 在 不 同 处 理 
器 上 运行 线程 并 行 地 完成 工作 ， 其 结果 必须 与 单 处 理 器 完成 该 工作 的 结果 相同 ， 此 时 就 需要 协 
调 各 处 理 器 。 协 调包 括 两 个 操作 : 一 个 是 并 行 线程 彼此 之 间 的 同步 ， 另 一 个 是 线程 间 部 分 结果 
的 通信 ， 类 伏地， 协调 也 要 达到 这 样 一 种 效果 : 运行 结果 要 和 整个 工作 是 在 单 处 理 器 上 运行 时 
一 样 。 下 面 我 们 进一步 详细 介绍 工作 分 配 和 协调 。 

从 一 个 串 行 程序 开始 ， 程 序 员 或 编译 器 必须 首先 确认 程序 可 以 并 行 执行 的 部 分 。 对 于 串 行 
程序 中 先后 执行 的 两 个 程序 段 $ 和 $,， 它 们 可 以 是 函数 或 简单 的 连续 循环 迭代 ， 只 在 S, 和 5， 
相互 独立 的 情况 下 ， 即 $, 产生 的 数据 不 会 被 5, 使 用 时 ，5, 和 5, 才 可 以 并 行 执行 。 如 果 并 行 执 
行 S, 和 5S; 获得 的 结果 与 先后 执行 它们 所 获得 的 结果 是 相同 的 ， 那 么 我 们 称 这 段 并 行程 序 符合 
串 行 语义 (sequential semantic ) 。 

挖掘 多 处 理 器 中 并 行 性 的 关键 是 找到 程序 中 的 独立 代码 片段 。 并 行 的 一 个 常见 形式 是 数据 
级 并 行 。 数 据 级 并 行 意味 着 一 组 数据 中 不 同 数据 单元 的 计算 相互 独立 。 比 如 和 抢 阵 乘法 中 ， 结 果 
矩阵 的 一 个 单元 的 计算 与 另 一 个 单元 的 计算 完全 独立 。 一 般 而 言 ， 数 据 级 并 行 常 存在 于 循环 
中 ， 循 环 也 是 并 行 编译 器 进行 并 行 处 理 的 主要 目标 之 一 。 为 了 使 并 行 编译 器 能 够 在 循环 中 开发 
数据 级 并 行 ， 必 须 确保 循环 中 没有 跨 循环 迭代 的 依赖 ， 即 不 同 迭 代 过 程 的 计算 是 相互 独立 的 。 
当 和 矩 阵 中 的 所 有 数据 元 素 运行 相同 的 计算 时 ， 我们 一 般 用 SPMD 并 行 来 描述 这 种 情况 。SPMD 
是 指 单 程序 多 数据 并 行 ， 它 表示 在 所 有 数据 元 素 上 运行 相同 的 函数 (程序 代码 )。 数 据 级 并 行 
有 一 个 非常 吸引 人 的 特质 : 问题 规模 越 大 ， 能 发 现 的 并 行 性 越 多 。 

并 行 的 另 一 种 形式 是 函数 级 并 行 或 称 任务 级 并 行 ， 不 同 处 理 器 中 执行 相互 独立 的 函数 。 函 
数 级 并 行 的 常见 形式 存在 于 流 媒体 应 用 程序 中 ， 在 这 些 程序 中 不 用 函数 轮流 应 用 在 数据 流 (如 
视频 帧 ) 上 。 如 果 有 多 个 函数 连续 应 用 在 一 串 数据 流 上 ， 这 些 函 数 可 以 组 成 一 个 函数 流水 
(function pipeline) 。 假 定 有 六 级 流水 线 的 话 ， 就 最 高 可 以 获得 V 倍 的 加 速 。 当 然 ， 这 两 种 并 行 


二 


方法 可 以 混合 使 用 ， 以 高 效 挖掘 并 行 性 。 数 据 级 并 行 可 以 用 于 函数 流水 的 每 个 函数 中 ， 这 样 在 
两 个 级 别 都 体现 了 并 行 性 。 

要 实现 协调 、 同 步 和 通信 ， 意 味 着 共享 内 存 系统 中 的 线程 需要 通过 内 存 交 换 信息 ， 或 者 消 
息 传 递 系统 中 的 线程 需要 交换 显 式 消息 。 不 管 是 什么 通信 模型 ， 很 明显 通信 都 会 耗费 一 定 的 时 
间 ， 从 而 影响 并 行 计算 机 处 理 问 题 的 速度 。 从 体系 结构 的 角度 出 发 ， 支 持 高 效 的 同步 和 通信 实 
现 非常 重要 。 归 结 下 来 就 是 要 理解 如 何 消 除 共享 内 存 系统 或 互连网 络 中 的 瓶颈 。 为 了 合理 地 权 
衡 设计 空间 和 开销 ， 需 要 定义 出 硬件 应 该 向 软件 提供 哪些 支持 同步 和 通信 的 原 语 。 我 们 会 通过 
以 下 针对 共享 内 存 和 消息 传递 系统 设计 的 并 行 算法 例子 来 识别 这 些 原 语 。 

我 们 考虑 的 并 行 计算 问题 如 图 5-1 所 示 。 算 法 完成 两 个 矩阵 和 4、B 相 乘 ,每 个 矩阵 都 是 入 
行 W 列 的 (第 6 行 )。 此 外 ， 还 计算 出 所 有 和 矩阵 元 素 的 和 (第 7 行 )。 算 法 的 输出 是 WwW 行 W 列 
的 结果 矩阵 C 和 矩阵 C 的 所 有 元 素 的 标量 和 。 


sum = 0; 
for (i=0,i<N,i++) 
for (j=0,j<N,j++){ 


Cc[i,j} = 03 
for (k=0,Kk<N,Kk++) 

Cliij] = 上 江村] + ALi-KI*BIR) IS] 
sum += C[i,j]; 


} 





图 5-1 两 个 矩阵 相 乘 的 串 行 算法 的 伪 码 


5. 2.1 共享 内 存 系统 
逢 阵 乘 算法 (如 图 5-1 所 示 ) 存在 大 量 数据 级 并 行 ， 这 是 因为 每 个 矩阵 元 素 的 计算 与 其 他 
元 素 的 计算 是 相互 独立 的 ， 所 以 理论 上 所 有 矩阵 元 素 都 可 以 并 行 计算 。 然 而 ， 在 处 理 器 中 创建 
一 个 线程 会 产生 性 能 开销 ， 如 下 面 的 例子 所 示 ， 这 些 开销 会 减少 并 行程 序 实现 的 性 能 提升 。 
假设 在 P 个 核 上 执行 两 个 矩阵 相 乘 需要 的 时 间 为 Tww/P， 开 始 一 个 新 线程 需要 的 
时 间 为 7,,,。 线 程 启动 是 顺序 执行 的 。 为 使 速度 最 大 化 ， 需 要 使 用 多 少 个 核 ? 
在 尸 个 核 上 矩阵 相 乘 再 加 上 线程 启动 的 执行 时 间 为 ; 


cs -A MM 
T=PxTt+ P 


最 大 化 速度 就 是 要 找到 使 得 执行 时 间 7 了 最 小 的 核 数 P， 也 就 是 下 式 的 解 : 


B=0T 误 了 六 =0 
解 得 P 的 值 为 : 
P= /em 
Ea 
例如 ， 在 一 个 单 处 理 器 上 执行 矩阵 乘法 的 时 间 ( TWww) 是 线程 初始 化 时 间 的 100 倍 ， 那 么 
使 用 10 个 核 可 以 让 计算 获得 最 大 速度 。 a 


并 行 粒 度 是 指 一 个 线程 与 其 他 线程 并 行 执 行 的 工作 量 大 小 。 对 于 固定 大 小 的 问题 ， 比 如 一 
个 NxN 大 小 的 和 矩阵， 并 行 粒度 随 着 处 理 器 数目 的 增多 而 减 小 。 在 图 5-1 的 例子 中 ， 工 作 任 务 
在 nproc 个 线程 上 进行 分 配 ， 其 中 nproe = N/2', i=0，1，…，log;N， 共 享 内 存 系 统 中 控制 每 
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个 线程 的 伪 码 如 图 5-2 所 示 。 


/* A, B, C;: BAR, LV and sum are shared 

/* All other variables are private 

la low = pid*N/nproc; /* pid=0...nproc-1 

1b hi = low + N/nproc; /* identifies rows of A 
lc mysum = 0}; sum = 0; 

2 for (i=low,i<hi,i++) 

3 for (j=0,j<N;j++){ 

4 CfLijl a "Qs 

5 for (k=0,Kk<N,Kk++) 

6 a Bk; 
mysum +=C[i,j]; 

8 } 

9 BARRIER(BAR); 

10 LOCK(LV); 

FE Sum += mysum; 

12 UNLOCK (LV); 








图 5-2 共享 内 存 系 统 中 并 行 算法 的 伪 码 


针对 串 行 代码 的 所 有 改动 在 图 中 都 被 标 为 粗 体 。 计 算 任 务 分 配给 nproce 个 线程 ， 第 一 个 线 
程 计算 了 第 一 个 N/nproc 行 元 素 的 矩阵 积 ， 第 二 个 线程 计算 了 下 一 个 N/nproc 行 元 素 的 矩阵 积 ， 
以 此 类 推 。 每 个 线程 被 分 配 了 一 个 单独 的 标识 〈pid) ， 其 范围 为 [0, nproc -1j。 第 Ia 和 1b 
行 给 出 了 使 用 pid 号 码 的 线程 工作 的 行 号 范围 。 这 组 连续 的 行 索 引 由 变量 low 和 i 定义 ,在 三 
级 循环 虞 套 的 最 外 层 循 环 中 使 用 (第 2 行 )。 

除了 计算 矩阵 积 ， 串 行 算 法 还 计算 结果 矩阵 中 元 素 的 和 ， 一 个 难点 是 ， 在 并 行 算 法 中 需要 
注意 避免 因 标量 变量 sum 而 造成 的 跨 循环 依赖 。 幸 运 的 是 ， 跨 循环 依赖 可 以 通过 让 每 个 线程 计 
算 自己 的 行 矩 阵 元 素 的 和 来 避免 。 为 此 ， 每 个 线程 维持 一 个 私有 变量 ， 称 为 mysum， 用 来 累计 
局 部 的 和 。 

在 共享 内 存 编 程 模型 下 ， 变 量 可 以 被 定义 为 全 局 共享 的 。 数 组 4、B、C 以 及 标量 变量 
BAR、LV 和 sum 都 是 全 局 共享 变量 。 这 样 的 好 处 是 矩阵 可 以 被 所 有 线程 访问 。 因 而 ， 不 需要 
再 修改 计算 矩阵 积 的 循环 嵌 套 : 每 个 线程 可 以 读 取 输入 矩阵 4、B， 并 且 将 结果 存 入 矩阵 C 中 。 
不 过 ， 协 调 操作 仍然 是 需要 的 ， 每 个 线程 计算 各 自 的 局 部 和 ， 这 些 局 部 和 必须 累计 成 为 全 局 
和 。 在 第 le 行 ， 全 局 和 与 局 部 和 都 被 初始 化 为 0。 每 个 线程 在 第 10 ~ 12 行将 它 的 局 部 和 累加 
到 全 局 和 中 。 多 个 线程 会 分 别 将 全 局 和 读 取 到 处 理 器 寄存 器 中 ， 将 它们 的 局 部 和 累加 到 寄存 器 
中 ， 最 后 将 结果 写 回 全 局 和 变量 中 ， 在 这 个 过 程 中 一 些 局 部 和 有 被 其 他 局 部 和 覆盖 的 风险 。 因 
此 局 部 和 必须 放 在 临界 区 内 以 串 行 的 方式 累加 到 全 局 和 中 。 临界 区 的 语义 确保 了 任意 时 刻 代码 
段 最 多 只 能 被 一 个 线程 执行 。 实 际 上 ， 在 临界 区 ,所 有 线程 任意 时 刻 只 在 全 局 和 上 累加 它们 各 
自 的 一 个 局 部 和 ， 这 样 ， 最 后 结果 就 是 所 有 局 部 和 的 正确 和 。 临 界 区 通常 用 锁 机 制 来 实现 。 

协调 涉及 的 另 一 个 问题 是 : 什么 时 候 让 第 一 个 线程 将 它 的 局 部 和 加 到 全 局 和 上 才 是 安全 
的 ? 当 线程 异步 执行 时 ， 一 个 线程 甚至 可 能 在 另 一 个 线程 开始 执行 之 前 就 已 经 完成 了 它 的 局 部 
矩阵 积 。 后 者 在 第 1c 行 把 和 初始 化 为 0 之 前 ， 前 者 就 计算 完成 它 的 局 部 和 。 显 然 ， 这 将 导致 
错误 的 结果 。 这 时 需要 一 个 方法 ， 使 得 在 所 有 线程 完成 它们 各 自 的 矩阵 乘法 算法 的 部 分 之 前 ， 
任何 线程 都 不 能 进入 临界 区 并 进行 和 的 更 新 。 方 法 之 一 是 采用 栅栏 同步 〈barrier synchroniza- 
tion) 。 在 语义 上 ， 栅 栏 同步 会 使 得 每 个 线程 都 等 待 ， 直 到 所 有 线程 都 到 达 该 栅栏 点 才能 推进 。 
在 上 面 的 例子 中 ， 在 第 9 行 插入 了 一 个 栅栏 同步 。 栅 栏 和 锁 一 样 都 可 以 通过 指令 集 架 构 中 的 
load 指令 、store 指令 和 读 - 修改 - 写 指令 来 合成 。 我 们 将 在 第 7 章 中 详细 讲述 同步 设计 的 实现 








166 第 5 章 


及 其 ISA 支持 。 

总 之 ， 共 享 内 存 多 处 理 器 有 一 个 很 吸引 人 的 特点 ， 就 是 通信 和 同步 操作 可 以 通过 ISA 中 的 
原 语 来 实现 。 不 过 这 也 会 导致 load 和 store 指令 有 了 时 可 能 会 产生 非常 长 的 访问 延迟 ， 并且 底 层 
存储 系统 的 设计 对 性 能 的 影响 也 至 关 重 要 。 

下 面 介绍 通过 消息 传递 的 机 制 来 实现 并 行 算法 。 


5. 2.2 消息 传递 系统 


共享 内 存 系统 是 通过 让 所 有 线程 共享 同一 地 址 空间 来 实现 线程 之 间 的 协调 ， 而 消息 传递 系 
统 却 不 同 ， 每 个 线程 或 进程 都 有 自己 的 地 址 空间 。 协 调 操作 需要 通过 线程 间 显 式 地 发 送 消息 来 
实现 。 在 任何 由 若干 计算 节点 互 连 组 成 ， 并 且 每 个 节点 都 至 少 配备 有 一 个 处 理 器 和 一 些 内 存 的 
系统 中 ， 支 持 消息 传 递 机 制 。 消 息 传递 在 超大 规模 并 行 计算 机 系统 〈 即 由 成 百 上 千 个 计算 节点 
构成 的 所 谓 计算 集群 系统 ) 中 是 非常 受 欢迎 的 编程 模式 。 线 程 间 不 共享 任何 数据 有 两 个 主要 含 
义 : 首先 ， 数 据 结构 必须 被 显 式 地 分 配 到 私有 地 址 空间 ; 其 次 ， 线 程 执行 的 部 分 计算 结果 在 最 
后 必须 进行 收集 。 

矩阵 乘法 的 消息 传递 版 本 如 图 5-3 所 示 ， 图 中 给 出 了 每 个 线程 的 代码 。 我 们 假设 矩阵 4 和 
B 初始 时 保存 在 一 个 计算 节点 ( 主 节点 ) 上 ， 其 线程 编号 为 0(pid =0)。 如 第 1b ~1f 行 所 示 ， 
主 节点 将 矩阵 4 的 N/Anproc 行 作为 一 块 分 配给 其 他 线程 。 和 矩阵 A 只 需要 向 每 个 线程 发 送 大 小 为 
myN 的 部 分 矩阵 (第 1e 行 )， 而 矩阵 B 则 必须 整体 发 送 到 所 有 线程 中 (第 1f 行 )。 


la myN = N/nproc; 
1b if(pid == 0) 
for(i=1; i<nproc;i++){ 
k=i*N/nprocs; 
SEND(&A[k] [0] ,myN*N*sizeof (float),i,INL);} 
SEND(&B[0] [0] ,N*N*sizeof (float),i,IN2); 
} else { 
RECV(&A[O] [0] ,myN*N*sizeof (float),0,IN1); 
RECV(&B[0] [0] ,N*N*sizeof (float),0,IN2); 
} 
mysum = 0; 
for (i=0,i<myN, i++) 
for (j=0,j<N, j++){ 
SGI.I) = 0; 
for (k=0,Kk<N, k++) 
Glinjl.=s Gli.jl + Ali,kI*BIE,dj: 
mysum += C[i,j]; 
} 
if (pid == 0)1{ 
Sum = mysum; 
for{(li = 1;i<nproc;i++){ 
RECV (&mysum, sizeof (float),i,SsUM); 
Bum += mySsSum; 
} 
for(1i=1; i<nproc;i++){ 
k=i*N/nproc; 
RECV(&C[k] [0] ,myN*N*sizeof (float),i,RES); 
} elset{ 
SEND (&mysum, sizeof (float),0,SUM); 
SEND(&C[0] [0] ,myN*N*sizeof (float),0,RES); 
} 





图 5-3 消息 传递 系统 中 并 行 算法 的 伪 码 
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为 了 从 一 个 节点 向 男 一 个 节点 拷贝 数据 ， 消 息 传递 系统 支持 发 送 (SEND) 和 对 应 的 接收 
(RECV) 操作 。SEND 的 语义 是 指 ， 从 发 送 方 的 本 地 地 址 空间 拷贝 数据 到 接收 方 的 一 个 缓冲 区 
中 。 而 RECY 的 语义 是 指 ， 从 缓冲 区 中 拷贝 数据 到 接收 方 的 本 地 地 址 空间 中 。 第 1h 行 和 第 1i 
行 的 语句 进行 部 分 矩阵 4 和 全 部 矩阵 召 的 拷贝 和 接收 。SENDVZRECY 的 参数 从 左 至 右 依次 是 : 
本 地 数据 结构 的 起 始 地 址 ， 消 息 的 长 度 ， 接 收 者 /发 送 者 的 四， 一 个 同 其 他 消息 区 分 的 标识 。 
消息 传递 原 语 的 详细 语义 将 在 5. 3 节 中 讲述 。 

对 于 主体 计算 部 分 (第 2 ~8 行 )， 其 代码 与 共享 内 存 模型 下 的 代码 很 像 。 主 要 区 别 在 于 ， 每 
”个 线程 执行 分 配给 它 的 由 连续 的 myN 行 组 成 的 部 分 任务 ， 这 些 结果 矩阵 的 本 地 部 分 稍 后 必须 拷贝 
峰 主 节点 。 和 共享 内 存 代码 中 一 样 ， 每 个 线程 在 私有 标量 变量 mysum 中 计算 部 分 和 。 

下 面 再 考虑 任务 间 的 协调 操作 ， 在 这 一 特定 消息 传递 程序 中 ，pid 为 0 的 线程 (主线 程 ) 
负责 计算 总 和 ， 这 可 以 通过 让 其 他 线程 把 部 分 和 都 发 送 给 pid =0 的 线程 来 实现 ， 这 个 SEND 操 
作 在 第 20 行 。 这 些 部 分 和 被 主线 程 利用 第 11 ~ 14 行 的 :for 循环 收集 起 来 并 累加 到 sum 中 。 各 
线程 计算 的 部 分 矩阵 积 通过 第 21 行 的 SEND 发 送 回 主 线程 ， 主 线程 执行 的 代码 将 部 分 结果 复 
制 到 结果 矩阵 中 ， 如 第 15 ~ 18 行 所 示 。 

在 该 算法 的 共享 内 存 实 现 版 本 中 ， 通 过 特殊 同步 原 语 避 免 了 数据 竞争 。 在 消息 传递 实现 版 
本 中 ， 同 步 操 作 隐 含 在 消息 传递 原 语 中 。SEND 和 RECV 操作 主要 分 两 种 : 同步 类 型 和 异步 类 
型 。 同 步 的 SEND 和 RECYV 会 阻塞 进程 直到 双方 通知 对 方 消息 已 经 完成 交换 。 假 设 图 5-3 中 算 
法 实现 的 信息 交换 是 同步 的 ， 那么 代码 中 就 不 需要 使 用 其 他 同步 机 制 来 避免 数据 竞争 了 。 

注意 ， 在 消息 传递 系统 中 数据 必须 被 显 式 地 分 配 到 各 个 参与 计算 的 线程 的 存储 区 中 ， 并 且 
线程 之 间 必须 交换 部 分 结果 。SEND 和 RECV 原 语 的 实现 通常 需要 硬件 和 软件 功能 相 结合 。 在 
5.3 节 中 ,我 们 将 仔细 研究 消息 传递 系统 的 结构 。 


5.3 基于 消息 传递 的 多 处 理 器 系统 

消息 传递 多 处 理 器 系统 的 核心 是 ， 参 与 节点 之 间 显 式 地 进行 消息 交换 ， 因 此 ， 只 有 参与 交 
换 的 节点 才 需 要 放 在 一 起 ， 这 也 使 得 这 类 系统 具有 良好 的 可 扩展 性 。 实 际 上 ， 消 息 传递 已 经 在 
包含 数 千 个 节点 的 大 型 计算 机 集群 中 成 功 实现 。 本 节 讲 述 包含 处 理 单元 和 存储 的 节点 之 间 的 通 
信 协 议 以 及 对 消息 传递 的 支持 。 消 息 传递 系统 可 以 基于 桌面 计算 机 集群 很 容易 建立 起 来 ， 也 可 
以 集成 到 共享 内 存 的 系统 上 。 


5. 3.1 消息 传递 原 语 s 

在 消息 传递 系统 中 ， 消 息 交换 是 同步 和 通信 的 基本 原 语 。 消 息 传递 原 语 在 语义 上 不 尽 相 
同 ， 我 们 从 下 面 一 个 简单 例子 开始 介绍 同步 消息 传递 原 语 。 

人 加 在 如 下 使 用 消息 传递 的 程序 中 ， 进 程 P! 和 P2 进行 消息 交换 。 当 使 用 同步 SEND 
和 RECYV 原 语 时 ， 打 印 结果 是 什么 ? 


Code for process Pl: Code for process P2: 

A=10} B=5y 

SEND (&A, sizeof (A) , P2, SEND A); RECV (&B, sizeof (B) ,Pl1, SEND A); 
A=A+1; B=B+1; 

RECV (&C, sizeof (C) ,P2,SEND_B) ， SEND (&B, sizeof (B) ,P1,SEND.B); 
printf (C); 


一 组 对 应 的 SEND 和 RECV 原 语 本 质 上 是 在 发 送 方 和 接收 方 之 间 搭 建 起 了 一 条 通信 路 径 ， 
这 样 发 送 方 的 某 个 预 设 好 的 地 址 空间 中 的 数据 就 可 以 被 拷贝 到 接收 方 的 某 个 指定 地 址 空间 中 。 
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在 本 例 中 ， 有 两 组 匹配 的 SEND/RECV 对 。 在 第 一 对 中 ，SEND 的 参数 指出 了 本 地 地 址 空间 
(&A)、 消 息 长 度 (sizeof(A) ) 、 接 收 方 的 ID (P2)， 以 及 将 消息 与 其 他 Pl 和 P2 之 间 的 消息 
进行 区 分 的 标识 (tag)。 同 样 对 应 的 RECV 指明 了 接收 方 的 本 地 地 址 空间 (&B)、B 的 大 小 
(需要 与 SEND 中 的 大 小 相同 ) 发 送 方 的 ID (P1) ， 以 及 与 对 应 SEND 相同 的 tag。 由 于 Pl 和 
P2 异步 执行 ，SENDZRECY 协议 的 问题 在 于 当 SEND 语句 执行 时 ， 要 保证 A 的 内 容 可 以 被 正确 
复制 到 B， 这 需要 发 生 在 P2 从 RECV 返回 后 执行 下 一 条 语句 之 前 ， 因 为 此 时 将 真正 改变 B 的 
内 容 。 

在 同步 消息 传递 中 ， 发 送 方 在 接收 方 收 到 消息 之 前 必须 被 阻塞 。 同 样 接收 方 在 消息 可 用 并 
且 被 拷贝 到 本 地 某 个 指定 的 地 址 空间 之 前 也 必须 被 阻塞 。' 回 到 上 面 的 例子 ，SEND 和 RECYV 的 
同步 机 制 保证 了 当 SEND 语句 执行 时 A 的 内 容 (A =10) 被 传送 给 P2 ， 而 不 是 执行 SEND 之 后 
的 值 (A = 11) 。 同 样 ， 如 果 RECV 是 同步 的 ，P2 在 消息 (10) 被 拷贝 到 本 地 变量 B 之 前 是 被 
阻塞 的 。 因 此 ， 当 P2 发 送 包含 B 内 容 的 消息 给 Pl 时 ，B 的 内 容 是 11， 就 好 像 在 第 一 个 RECV 
语句 之 后 执行 加 1 操作 。 接 着 Pl 将 值 拷贝 在 本 地 变量 C 中 ， 然 后 进行 输出 。 4 

同步 消息 传递 原 语 的 一 个 好 处 是 ， 我 们 可 以 推测 出 程序 执行 的 结果 ， 因 为 原 语 强制 进行 了 
同步 。 不 过 ， 同 步 消息 交换 也 有 两 个 缺点 : 一 个 是 容易 导致 死 锁 ， 另 一 个 是 不 允许 计算 与 通信 
重叠 ， 发 送 方 必须 等 到 接收 方 收 到 消息 后 才能 继续 执行 。 下 面 先 来 看 一 下 死 锁 的 情况 。 

考虑 下 面 的 同步 消息 传递 程序 ， 为 什么 会 出 现 死 锁 ? 


Code for process Pl1: Code for process P2: 

A= 10; B= 5; 

SEND (&A, sizeof (A) , P2, SENDA); SEND (&B, sizeof (B) , P1,SEND.B) 
RECV (&B, sizeof (B) ,P2, SEND.B); RECV (&A, sizeof (B) ,Pl1, SENDA); 


在 同步 消息 交换 下 ， 发 送 方 和 接收 方 都 会 阻塞 ， 直 到 消息 传输 结束 ， 也 就 是 说 一 组 匹配 的 
SEND/RECV 必须 都 执行 完了 才能 往 前 推进 。 这 段 代 码 的 问题 在 于 ，P1 和 P2 都 阻塞 在 它们 的 
SEND 语句 ， 等 待 匹配 的 RECV 执行 ， 但 两 者 都 无 法 执行 各 自 的 RECV 语句 ， 因 此 程序 发 生 了 
死 锁 。 这 段 简单 的 代码 可 以 通过 交换 Pl 或 P2 代码 中 SEND/RECY 的 顺序 来 打破 死 锁 。 到 

第 二 个 同步 消息 传递 的 缺点 是 它 将 同步 和 通信 结合 在 一 起 。 同 步 和 通信 都 是 长 延迟 操作 ， 
将 它们 封装 在 一 个 原 语 中 会 导致 性 能 下 降 。 将 两 者 分 开 可 以 让 发 送 方 在 消息 传递 的 过 程 中 做 一 
些 有 用 的 工作 。 异 步 消息 传递 原 语 就 是 这 样 做 的 。 在 介绍 之 前 ， 先 通过 下 面 的 例子 来 说 明 这 样 
做 的 可 能 性 。 

考虑 如 下 的 消息 传递 程序 。 假 设 SEND 需要 1000 个 时 钟 周期 来 执行 ， 并 且 与 之 不 
相关 的 计算 操作 需要 500 个 周期 。 假 设 采用 异步 SEND 和 同步 RECV 原 语 ， 执 行 下 面 的 消息 传 
递 程序 需要 多 长 时 间 ? 


Code for process P1: Code for process P2: 

A=10; B=5; 

SEND (&A, sizeof (A) , P2, SEND A); SEND (&B, sizeof (B) ,Pl1, SEND.B); 
<UNRELATED COMPUTATION;> <UNRELATED COMPUTATION;> 

RECV (&B, sizeof (B) , P2, SEND.B); RECV (&A, sizeof (B) ,P1, SENDA); 


在 异步 消息 传递 情况 下 ，P1 发 送 消息 ， 然 后 在 执行 SEND 之 后 继续 执行 下 面 的 代码 ， 而 不 
是 等 待 接收 方 把 消息 拷贝 到 它 的 地 址 空间 中 。 本 例 中 ，SEND 后 的 代码 “不 相关 ”， 是 指 这 些 
代码 不 会 修改 A 的 内 容 ， 也 不 需要 B 的 值 。 在 P2 的 结尾 处 ， 同 样 SEND 后 的 代码 既 不 影响 B 
的 内 容 ， 也 不 需要 A 的 值 。 这 样 的 话 ，SEND 的 延迟 有 一 部 分 可 以 被 本 地 的 计算 所 覆盖 掉 ， 正 
如 图 5-4 中 的 时 间 图 所 示 。 由 于 消息 传递 需要 1000 个 时 钟 周期 ， 不 相关 计算 需要 500 个 周期 ， 
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消息 传递 的 500 个 周期 被 有 用 工作 重合 ， 所 以 执行 这 段 代码 需要 1000 个 时 钟 周期 。 
进程 P1 进程 P2 


SEND(&A,...) SEND(&B,...) 








(Unrelated) (Unrelated) 


RECV(&B,...) RECV(&A,...) 


500 


Wait Wait 


1000 Continue Continue 


时 间 
图 5-4 异步 消息 交换 中 计算 与 通信 重 释 所 


在 异步 消息 传递 中 ， 发 送 方 不 用 等 到 本 地 存储 区 中 的 数据 被 拷贝 走 就 可 以 继续 执行 。 在 
例 5.4 的 代码 中 ， 由 于 消息 传递 与 代码 的 执行 是 异步 的 ， 有 可 能 出 现 当 A 的 内 容 被 拷贝 时 ， 它 的 
值 与 SEND 语句 被 执行 时 的 值 不 一 致 。 因 此 有 两 种 异步 消息 传递 原 语 : 阻塞 (blocking) 和 非 阻塞 
(non-blocking)。 接 下 来 介绍 这 两 种 原 语 的 区 别 。 

当 组 成 消息 的 本 地 数据 在 某 个 地 方 被 缓存 并 且 不 会 被 发 送 进程 的 执行 所 改变 时 ， 阻 塞 的 异 
步 SEND 会 将 控制 权 交 给 发 送 进 程 。 同 样 阻塞 的 RECYV 直到 消息 被 拷贝 到 接收 进程 的 本 地 存储 
空间 后 ， 才 会 把 控制 权 交 回 给 接收 进程 。 这 与 非 阻 塞 的 异步 消息 传递 原 语 正 好 相反 ， 非 阻塞 的 
异步 传递 会 将 控制 权 立 刻 返 回 给 发 送 和 接收 进程 ， 数 据 交换 是 在 后 台 完 成 的 。 有 的 消息 传递 系 
统 会 提供 探 针 函数 (probe function) 来 检测 消息 传输 的 状态 。 探 针 函 数 可 以 检查 数据 是 否 从 发 
送 方 的 本 地 地 址 空间 拷贝 到 缓冲 区 ， 或 者 ， 对 称 地 ， 检 查 是 否 被 拷贝 到 接收 方 的 本 地 地 址 空 
间 ， 以 避免 非 阻塞 异步 消息 传递 导致 的 数据 覆盖 。 


5. 3.2 消息 传递 协议 


在 仔细 分 析 了 一 对 匹配 的 SENDARECV 原 语 在 消息 传递 过 程 中 的 动作 (包括 同步 的 和 异步 
的 ) 之 后 ,我 们 先 考虑 一 个 同步 消息 传输 当 发 送 方 执 行 SEND 时 ,需要 和 接收 方 同步 ， 确 保 
它 执行 到 了 对 应 的 RECV。 这 时 ， 包 含 从 发 送 方 本 地 地 址 空间 拷贝 来 的 数据 的 消息 被 发 送 到 接 
收 方 ， 接 收 方 再 将 消息 拷贝 回 自己 本 地 指定 的 地 址 空间 。 

图 5-5 给 出 了 这 种 传输 的 一 种 实现 协议 。 

在 图 5-5a 中 ， 给 出 的 是 发 送 方 发 起 的 同步 消息 传递 协议 。 当 发 送 进程 执行 SEND 函数 ， 发 
送 给 接收 方 一 个 消息 询问 接收 方 是 否 准备 好 (图 5-5a 中 的 “发 送 请 求 ”) 。 接 收 节点 为 了 确认 
自己 是 否 准备 好 这 次 消息 传输 ， 会 查询 匹配 表 ， 这 个 表 记 录 了 所 有 之 前 执行 的 包括 该 进程 人 D 
和 标识 的 RECV 原 语 的 状态 。 查 表 结 果 有 两 种 情况 : (1) 对 应 的 RECV 已 经 执行 过 了 ; 
(2) 对 应 的 RECV 还 没 执 行 。 如 果 接 收 进程 已 经 执行 过 对 应 的 RECV， 表 中 就 会 出 现 一 次 匹 
配 ， 并 且 接 收 节点 会 通知 发 送 方 ， 它 准备 好 消息 传输 了 (图 5-5a 中 的 “接收 方 准备 好 ”) 。 发 
送 方 会 将 消息 发 送 给 接收 方 ， 然 后 接收 方 将 消息 拷贝 到 特定 的 本 地 地 址 空间 。 与 之 相反 ， 如 果 
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a ) 发 送 方 发 起 的 消息 传递 b ) 接收 方 发 起 的 消息 传递 
图 5-5 ”发送 方 和 接收 方 发 起 的 消息 传递 协议 


接收 节点 还 没有 执行 RECV 孔 数 ,“ 接 收 方 准 备 好 ”消息 会 一 直 等 到 对 应 的 RECV 函数 被 执行 
才 发 送 ， 同 时 更 新 匹配 表 。 注 意 这 种 协议 需要 3 个 阶段 才能 发 送 一 次 消息 。 

有 人 可 能 会 问 是 否 可 以 减少 所 需 的 阶段 数 。 图 5-5b 给 出 了 由 接收 方 发 起 的 两 阶段 同步 消 
息 传递 协议 。 不 同 于 发 送 方 发 起 协议 中 匹配 表 由 接收 方 维护 的 策略 ， 在 接收 方 发 起 的 协议 中 ， 
匹配 表 由 发 送 方 来 维护 。 当 接收 方 执 行 了 RECV 函数 ， 会 发 送 给 发 送 节点 一 个 消息 (图 5-5b 
中 的 “接收 请 求 ”) ， 发 送 节点 查询 匹配 表 。 同 图 5-5a 给 出 的 发 送 方 发 起 的 协议 相同 ， 查 表 结 
果 可 能 会 出 现 两 种 情况 : 一 种 是 成 功 匹 配 后 进行 消息 传递 ， 另 一 种 是 接收 进程 会 一 直 阻 塞 直 到 
发 送 方 对 应 的 SEND 函数 执行 。 

在 发 送 方 或 接收 方 发 起 的 消息 传递 协议 中 ,假设 消息 传递 原 语 是 同步 的 。 这 就 是 说 ， 发 送 
进程 和 接收 进程 都 会 一 直 阻 塞 直到 传输 完成 。 现 在 来 考虑 一 下 异步 消息 传递 的 情况 。 在 阻塞 的 
异步 消息 传递 中 ， 发 送 方 可 以 越过 SEND 函数 继续 执行 ， 前 提 是 消息 已 经 被 放 入 缓冲 区 ， 这 样 
本 地 数据 结构 的 改变 也 不 会 影响 消息 的 内 容 。 需 注意 的 是 ， 在 发 送 进程 越过 SEND 继续 执行 后 
续 语 句 之 前 ， 必 须 确保 预 留 的 缓存 空间 足以 保存 发 送 的 消息 。 这 个 缓冲 空间 既 可 以 设 在 发 送 方 
也 可 以 设 在 接收 方 。 将 缓冲 区 设 在 接收 方 带 来 的 一 个 问题 是 ， 发 送 方 必须 发 送 消息 来 查询 是 否 
有 足够 大 小 的 缓冲 区 ， 在 没有 足够 缓冲 区 之 前 ， 发 送 进程 会 被 阻塞 。 当 然 ， 最 好 的 情况 是 对 应 
的 RECV 已 经 被 执行 ， 这 样 可 以 马上 开始 消息 传输 。 但 在 最 坏 的 情况 下 ， 发 送 方 会 一 直 阻 塞 直 
到 有 足够 的 缓冲 区 ， 这 可 能 需要 很 长 的 时 间 ， 因 为 此 时 接收 进程 可 能 正在 从 其 他 很 多 节点 接收 
消息 。 男 一 种 替换 策略 是 将 缓冲 区 设 在 发 送 方 ， 这 种 情况 下 ， 如 图 5-5a 所 示 的 发 送 方 发 起 的 
传递 协议 会 有 所 不 同 ， 本 地 数据 结构 的 拷贝 和 发 送 请 求 给 接收 方 是 并 行 的 。 一 旦 拷贝 完成 ， 发 
送 方 就 可 以 越过 SEND 函数 继续 执行 。 、 


5. 3.3 ”消息 传递 协议 的 硬件 支持 

消息 传递 系统 可 以 构建 在 通过 互连网 络 连 接 的 节点 上 ， 协 议 可 以 在 支持 它 的 底层 网 络 事务 
原 语 的 基础 上 构建 。 这 些 原子 的 网 络 事务 由 通用 互连网 络 提供 。 因 此 ， 最 基本 的 硬件 支持 是 现 
成 的 。 除 此 之 外 的 硬件 支持 主要 用 于 降低 节点 间 消 息 传递 的 延迟 ， 或 者 将 消息 传递 协议 的 处 理 
过 程 从 计算 处 理 器 中 分 离 ， 以 直接 提高 计算 速度 。 即 使 在 异步 协议 下 ， 发 送 方 和 接收 方 也 可 以 
不 用 显 式 地 等 待 消息 传递 的 完成 ， 但 更 短 的 消息 延迟 仍然 可 以 缩短 执行 时 间 ， 因 为 它 可 以 带 来 
更 高 的 消息 传输 吞吐 率 。 


多 处 理 器 系统 了 了 72 





正如 我 们 在 5. 3. 2 节 看 到 的 那样 ， 消 息 传递 协议 需要 通过 网 络 传递 发 送 方 地 址 空间 中 的 一 
些 数据 的 副本 。 如 果 没 有 硬件 支持 ， 发 送 方 必 须 将 数据 从 用 户 地 址 空间 拷贝 到 本 地 系统 存储 区 
中 ， 然 后 再 从 这 个 存储 区 中 将 数据 传送 给 网 络 接口 。 如 果 只 有 计算 处 理 器 的 硬件 支持 ， 传 输 延 
迟 可 能 会 很 高 ， 因 为 处 理 器 的 速度 可 能 跟 不 上 互连网 络 的 注 人 速率 (injection rate) 。 对 于 接收 
方 也 是 一 样 的 ， 图 5-6a 给 出 了 相应 的 示意 图 ， 显 示 了 从 网 络 接口 到 系统 区 的 输入 缓冲 区 (1 和 
2) 以 及 从 系统 区 到 用 户 区 (3 和 4) 的 拷贝 操作 。 我 们 需要 一 个 硬件 结构 支持 ， 可 以 将 数据 
从 用 户 地 址 空间 拷贝 到 系统 空间 ， 再 从 系统 空间 拷贝 到 网 络 接口 的 缓冲 区 中 。 同 样 ， 接 收 方 的 
”拷贝 操作 也 需要 相应 的 硬件 支持 。 实 际 上 ， 一 个 DMA (Direct Memory Access) 引擎 就 可 以 完成 
这 些 工作 ， 它 也 是 将 数据 从 网 络 接口 拷贝 到 系统 区 ， 以 及 从 系统 区 再 拷贝 到 用 户 区 的 常用 机 
制 ， 如 图 5-6a 所 示 〈 细 箭头 部 分 )。DMA 引擎 程序 的 编写 ， 需 要 数据 的 首 地 址 、 目 的 存储 单 
元 地 址 以 及 存储 区 中 连续 的 存储 单元 大 小 。 然 后 它 就 可 以 分 别 在 发 送 方 将 数据 从 系统 区 拷贝 到 
网 络 接口 ， 以 及 在 接收 方 将 数据 从 网 络 接口 拷贝 到 系统 区 。 





a ) DMA 方 式 b ) 消息 处 理 器 
图 5-6 ”消息 传递 的 硬件 支持 


输入 的 数据 由 操作 系统 层 的 程序 处 理 ， 它 会 启动 一 个 DMA 引擎 ， 将 输入 的 数据 存 到 系统 
区 中 。 这 样 做 有 个 缺点 ， 就 是 必须 把 消息 从 系统 层 地 址 空间 拷贝 到 用 户 层 地 址 空间 ， 这 会 增加 
开销 。 如 果 消 息 可 以 直接 发 送 到 用 户 空间 ， 那 么 就 可 以 存 人 匹配 表 的 地 址 中 ， 从 而 避免 从 系统 
空间 到 用 户 空 间 的 拷贝 。 为 此 ， 可 以 在 消息 传递 协议 的 最 底层 将 系统 层 消息 和 用 户 层 消息 区 分 
开 ， 这样 一 来 ， 当 网 络 接口 接收 到 消息 后 ， 会 确定 将 消息 直接 传送 到 系统 层 存 储 空间 还 是 用 户 
层 存储 空间 。 

不 同 于 减少 消息 传输 的 开销 ， 另 一 种 改进 方法 是 将 资源 处 理 的 工作 交 给 进行 消息 传输 的 任 
务 ， 这 样 ， 这 些 任 务 就 被 从 计算 处 理 器 〈CP) 上 印 载 下 来 了 。 我 们 已 经 看 到 ，DMA 引擎 可 以 
用 于 将 数据 在 存储 区 和 网 络 接口 之 间 来 回 拷贝 。 一 个 通用 的 消息 处 理 器 (MP) 也 可 以 完成 一 
些 更 高 层 的 功能 ， 如 匹配 、 打 包 数 据 、 发 送 确认 消息 等 ， 就 像 图 5-6b 给 出 的 那样 。 在 某 些 实 
现 中 ， 多 处 理 器 系统 中 的 某 个 计算 处 理 器 可 以 用 来 进行 消息 处 理工 作 ， 这 是 一 种 非常 值得 一 试 
的 策略 ， 因 为 在 多 核 芯片 中 处 理 器 或 线程 资源 是 非常 丰富 的 。 此 外 ， 还 有 一 些 实现 将 专用 的 消 
息 处 理 器 紧密 耦合 在 网 络 接口 上 来 处 理 协 议事 务 。 


5.4 基于 总 线 的 共享 内 存 系统 


本 节 讲 述 小 规模 的 共享 内 存 多 处 理 器 系统 的 设计 。 从 cache 组 织 开 始 ， 然 后 讲解 cache 一 
致 性 的 基本 问题 。 本 节 的 核心 在 于 大 量 的 cache 一 致 性 协议 设计 原则 ， 我们 暂时 先 假定 系统 中 
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有 一 个 基于 广播 的 互 连 机 制 ， 比 如 总 线 。 


5.4.1 多 处 理 器 cache 组 织 


基于 总 线 的 多 处 理 器 系统 的 组 织 方案 如 图 5-7 所 示 。 图 5-7a 给 出 了 基本 的 “dance-hall” 
组 织 结构 ， 或 者 称 为 对 称 多 处 理 器 (SMP) 系统 。 其 典型 特征 是 所 有 的 处 理 器 在 连 线 的 一 边 ， 
所 有 的 内 存 模块 在 另 一 边 ， 这 样 ， 所 有 处 理 器 的 访 存 时 间 就 是 相同 的 。 本 节 中 我 们 假定 互 连 都 
是 基于 总 线 的 (或 者 任何 基于 广播 的 互 连 ) ， 在 5. 5 节 我 们 将 会 介绍 任意 拓扑 结构 的 互 连 方式 。 





a ) dance-hall 多 处 理 器 架构 或 SMP b ) 共享 一 级 cache 的 SMP 





c ) 采用 私有 cache 的 SMP d ) 采用 私有 cache 并 且 共 享 二 级 cache 的 SMP . 
图 5-7 基于 总 线 的 多 处 理 器 组 织 方案 


图 5-7a 给 出 的 只 是 一 个 概念 性 的 模型 而 不 是 真正 实现 的 模型 。 由 于 存储 层次 缺少 cache， 
该 模型 并 不 实用 。cache 存储 层次 对 于 单 处 理 器 系统 至 关 重 要 ， 它 可 以 弥补 处 理 器 和 内 存 之 间 
的 速度 差 ， 它 在 多 处 理 器 中 的 重要 性 又 进一步 扩大 到 两 个 方面 : 首先 ， 互 连 增加 了 存储 器 延 
迟 ; 其 次 ， 由 于 存储 器 和 互连网 络 是 共享 资源 ， 其 带宽 就 变 得 非常 稀缺 ， 而 cache 层次 可 以 减 
少 访 存 开销 ， 并 且 降 低 存储 器 和 互连网 络 的 压力 。 因 此 ，eache 层次 结构 是 多 处 理 器 设计 的 一 、 
个 基本 考虑 。 下 面 我 们 来 讨论 cache 结构 的 选择 以 及 如 何 取舍 。 

先 考 虑 一 级 cache， 我 们 需要 决定 选择 共享 的 (shared) 还 是 私有 的 (private) cache 组 织 
结构 。 顾 名 思 义 ， 处 理 器 私有 的 cache 只 能 被 该 处 理 器 访问 ， 而 共享 的 cache 是 一 组 处 理 器 共 
用 的 ， 能 被 组 内 的 所 有 处 理 器 访问 。 图 5-7b 给 出 了 在 处 理 器 和 互连网 络 之 间 插 人 共享 cache 的 
结构 。 这 种 组 织 结 构 的 好 处 是 处 理 器 之 间 的 共享 架构 使 得 cache 利用 率 更 高 。 比 如 ， 两 个 处 理 
器 需要 访问 同一 个 cache 块 ， 那 么 就 可 以 对 其 进行 共享 ， 而 不 用 将 数据 拷贝 两 份 分 别 放 到 各 自 
私有 的 cache 中 。 此 外 ， 如 果 第 二 次 访问 时 数据 仍 在 cache 中 ,那么 两 次 访问 只 有 一 个 会 失效 。 
共享 cache 组 织 方式 的 一 个 缺点 是 ， 处 理 器 和 cache 之 间 的 互连网 络 会 增加 访 存 关键 路 径 上 处 
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理 器 到 一 级 cache 的 延迟 。 因 此 ， 一 级 共享 cache 只 适用 于 处 理 器 数 较 少 的 结构 。 这 也 导致 了 
如 图 5-7c 所 示 结 构 的 出 现 ， 这 种 结构 中 ， 私有 cache 和 人 处理 器 在 互连网 络 的 同一 边 。 注 意 我 们 
必须 支持 私有 cache 这 种 结构 ， 因 为 现在 所 有 的 处 理 器 都 有 片上 cache。 

图 5-7b 和 <c 中 的 结构 截然 不 同 ， 此 外 还 有 一 些 混合 组 织 方式 。 比 如 , 图 5-7d 中 的 多 处 理 
器 组 织 结构 ， 既 有 在 处 理 器 同一 侧 的 私有 cache， 也 有 在 存储 模块 一 侧 的 共享 cache。 使 用 二 级 
cache 的 目的 是 缩小 一 级 cache 和 内 存 之 间 的 访 存 延 迟 。 实 际 上 ， 现 在 市 面 上 的 片上 多 处 理 器 ， 
其 结构 同 图 5-7d 所 示 的 结构 十 分 相似 ， 我 们 将 在 第 8 章 进行 介绍 。 

在 本 节 剩 余部 分 ， 我们 考虑 如 图 5-7c 所 示 的 一 级 私有 cache 结构 的 设计 空间 。 多 个 私有 
cache 的 存在 ， 意 味 着 同一 个 内 存 块 可 能 会 被 拷贝 到 不 同 的 私有 cache 中 。 这 些 副本 之 间 必 须 保 
持 一 致 ， 即 两 个 或 多 个 处 理 器 在 任何 时 间 访 问 同一 地 址 的 数据 ， 返 回 的 结果 必须 相同 ， 这 是 
cache 一 致 性 问题 的 精髓 。 这 一 问题 是 设计 共享 内 存 多 处 理 器 时 所 需要 考虑 的 最 重要 问题 之 一 。 
下 面 我 们 将 讲述 解决 cache 一 致 性 问题 的 通用 方法 。 

cache 一 致 性 

我 们 通过 下 面 的 例子 来 介绍 cache 一 致 性 的 一 些 重要 概念 。 

考虑 图 5-7a 中 简单 的 多 处 理 器 组 织 结构 。 假 设 P, 到 Py 轮流 对 地 址 4 发 起 写 操 
作 ， 用 W, 表示 忆 发 送 的 写 请 求 。 一 个 写 请 求 执行 的 结果 是 改变 内 存 中 对 应 单元 的 值 。 那 么 ， 
当 所 有 写 请 求 都 执行 完 后 4 单元 的 值 应 该 是 什么 ? 

结果 有 WN 种 可 能 的 情况 ， 例 如 ， 了 酚 是 最 后 执行 完 的 写 请 求 ，4 单元 将 保存 它 的 值 。 但是， 这 
些 访 存 可 能 存在 多 种 排列 组 合 。 比 如 ， 考 虑 W\Ww-1…W 这 一 写 序列 ，W 是 这 个 序列 最 后 一 次 
写 。4 的 值 就 是 W, 的 值 ， 我们 称 W 是 4 的 好 后 全 局 写 入 值 (last gobally written value) 。 

像 图 5-7a 所 示 的 组 织 结构 ， 每 个 单元 只 有 一 份 拷贝 内 容 ， 当 新 的 写 操作 执行 时 ， 旧 值 就 
被 替换 掉 了 。 任 何 一 个 处 理 器 在 一 个 写 操作 之 后 ， 并 且 在 另 一 个 写 请 求 之 前 的 读 请 求 都 会 读 到 
写 操作 的 结果 。 当 所 有 处 理 器 都 不 会 读 到 旧 值 时 ， 我 们 称 所 有 的 处 理 器 所 看 到 的 最 后 全 局 写 人 
值 是 一 致 的 。 这 个 概念 便于 我 们 理解 下 面 对 于 cache 一 致 性 的 非 正 式 定义 。 4 

定义 5.1 (cache 一 致 性 ) ”一 个 cache 系统 是 一 致 的 ， 当 且 仅 当 在 任何 时 间 点 ， 所 有 的 
处 理 器 所 看 到 的 任意 位 置 的 最 后 全 局 写 入 值 都 是 一 致 的 。 

第 7 章 将 给 出 正式 的 严格 限制 条 件 来 保证 cache 一 致 性 。 这 种 直观 上 大 家 都 期 望 的 特性 在 
系统 对 同一 单元 存在 多 个 备份 的 情况 下 就 会 失效 。 如 图 5-7c 和 4d 那样 的 系统 ， 存 在 私有 cache， 
任何 物理 地 址 单元 都 可 能 存在 多 个 备份 。 我 们 假设 私有 cache 采用 写 回 或 写 穿 透 的 方式 ， 讨论 
cache 一 致 性 的 问题 。 

在 写 回 方式 下 ， 写 操作 只 会 更 新 本 地 cache 的 备份 。 这 样 的 话 ， 两 个 处 理 器 对 同一 地 址 
执行 写 操作 ， 就 会 导致 对 最 后 全 局 写 人 值 的 不 一 致 结果 ， 之 后 的 读 操 作 也 会 返回 不 同 的 值 。 
另 一 方面 ， 采 用 写 穿 透 方式 ， 内 存单 元 的 本 地 备份 和 内 存 中 的 值 会 在 一 次 写 操 作 中 同时 被 
更 新 。 这 样 ， 该 单元 的 内 存 备份 ， 对 于 那些 本 地 没有 备份 的 处 理 器 来 说 ， 保 持 了 对 最 后 全 
局 写 人 值 的 一 致 结果 。 然 而 ， 对 于 那些 本 地 保存 了 拷贝 的 处 理 器 来 说 ， 其 所 看 到 的 结果 还 
是 非 一 致 的 。 从 这 些 例 子 可 以 看 出 ， 对 单 处 理 器 设计 的 cache 结构 无 法 保证 cache 的 一 致 性 。 
我 们 必须 扩展 基本 的 cache 结构 ， 使 其 能 够 保证 对 最 后 全 局 写 人 值 的 一 致 结果 。 本 部 分 学 习 
的 重要 目标 是 理解 cache 结构 设计 所 需要 的 设计 空间 ， 以 及 理解 各 种 用 来 解决 cache 一 致 性 
问题 的 协议 。 


5. 4.2 一 个 简单 的 侦 听 cache 协议 
为 了 介绍 侦 听 cache 协议 的 设计 概念 ， 我 们 先 来 简化 一 下 对 于 cache 的 一 些 假设 。 为 了 简 
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便 起 见 ， 假 设 每 个 处 理 器 的 cache 是 阻塞 式 写 穿 透 写 分 配 的， 多 处 理 器 组 织 结构 如 图 5-7c 所 
示 。“ 阻 塞 ”是 指 处 理 器 在 cache 请 求 结束 前 一 直 被 挂 起 。“ 写 分 配 ” 指 如 果 写 访问 的 数据 块 不 
在 cache 中 ， 要 先 将 这 一 块 取 到 cache 中 。cache 被 连接 到 互 连 总 线 ， 这 个 总 线 同 一 时 刻 只 能 处 
理 一 个 总 线 事务 。 也 就 是 说 ， 一旦 cache 控制 器 获得 了 总 线 访问 权 ， 它 就 会 一 直 独 占 总 线 ， 直 
到 事务 处 理 完毕 。 

第 一 种 解决 cache 一 致 性 的 协议 很 简单 ， 它 的 大 致 动作 如 下 : 处 理 器 的 读 请 求 同 单 处 理 器 
系统 处 理 方式 相同 ， 对 于 写 请 求 ， 则 需要 额外 的 动作 。 对 于 在 一 个 cache 中 存在 的 块 上 写 入 ， 
内 存 像 单 处 理 器 系统 那样 更 新 。 但 是 ， 在 所 有 保存 该 块 副本 的 cache 中 ， 该 数据 块 被 无 效 掉 ， 
比如 ， 置 有 效 位 为 0。 如 果 该 块 不 在 cache 中 ,首先 将 这 飞 块 取 到 cache 中 ， 然 后 更 新 这 一 块 在 
内 存 中 相应 位 置 的 值 ， 并 且 无 效 掉 其 他 cache 中 保存 的 副本 。 

新 的 操作 是 无 效 掉 所 有 cache 中 的 某 个 特定 块 。 在 一 个 基于 总 线 或 其 他 广播 方式 的 互连网 
络 的 多 处 理 器 组 织 结构 中 ， 这 个 过 程 可 以 被 简化 ， 因 为 所 有 的 cache 可 以 侦 听 或 探查 所 有 的 总 
线 请 求 ， 并 且 选 择 同 它 们 有 关 的 请 求 。 采 用 这 类 协议 的 方法 被 称 作 侦 听 cache 协议 。 

简单 协议 的 硬件 结构 

现在 我 们 来 看 实现 这 种 简单 侦 听 cache 协议 所 需 的 硬件 结构 。 图 5-8 给 出 了 写 穿 透 cache 的 
组 织 细节 以 及 它 的 写 缓冲 。 
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5-8 简单 侦 听 cache 协议 的 硬件 结构 


图 5-8 中 的 两 个 cache 都 由 两 部 分 组 成 : 一 个 数据 cache 和 一 个 请 求 缓冲 区 ， 这 个 缓冲 区 是 
单 处 理 器 系统 的 写 缓冲 。 数 据 cache 中 的 每 一 项 都 有 一 个 状态 位 (state bit) ， 这 在 写 穿 透 cache 
中 只 是 用 来 区 别 有 效 项 和 无 效 项 。 为 了 实现 简单 的 侦 听 cache 协议 ，cache 不 仅 要 响应 来 自 处 理 
器 的 读 和 写 请 求 ， 还 要 响应 来 自 总 线 的 无 效 请 求 。 为 了 理解 简单 协议 通过 这 些 硬 件 实现 的 动 
作 , 我 们 来 仔细 看 一 下 写 失效 和 读 失 效 请 求 的 动作 。 正 如 前 面 提 到 的 ， 读 命中 的 处 理 同 单 处 理 ， 
器 的 cache 一 样 ， 我 们 不 再 解释 。 我 们 将 初始 化 协议 的 cache 叫 作 本 地 cache， 将 其 他 协议 涉及 
的 cache 称 作 远程 cache。 

简单 协议 的 行为 特征 

我 们 还 记得 ， 在 单 处 理 器 环境 中 ， 读 失效 (read-miss) 请 求 可 以 绕 过 写 缓冲 中 还 未 执行 完 
的 写 请 求 ， 只 要 其 地 址 同 写 缓冲 中 未 执行 写 请 求 的 地 址 不 一 样 就 可 以 。 同 样 ， 如 果 它 们 地 址 匹 
配 ， 一 个 读 失 效 的 请 求 可 以 立即 返回 未 执行 的 写 请 求 的 值 。 然 而 ， 这 些 优化 方案 在 多 处 理 器 系 
统 中 通常 都 不 允许 ， 我 们 将 在 第 7 章 进行 详细 的 解释 。 

出 现 读 失效 时 ， 读 失效 请 求 会 插 人 到 请 求 缓冲 区 下 一 个 空闲 项 中 ， 并 且 将 V 位 (有效 位 ) 
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设置 为 有 效 。 当 读 请 求 到 达 请 求 缓冲 队列 头 时 ， 本 地 cache 控制 器 会 申请 总 线 控制 权 ， 当 申请 
成 功 后 ， 会 向 总 线 发 送 总 线 读 请 求 (BusRd)， 并且 返回 内 存 块 的 一 份 拷贝 。 

对 于 写 命中 (write hit) ， 写 请 求 的 值 以 及 地 址 将 被 插入 到 请 求 缓 冲 中 。 一 旦 写 请 求 到 了 组 
冲 队列 头 ， 控 制 器 就 将 请 求 独占 总 线 。 一 旦 请 求 允许 ， 就 会 发 送 总 线 写 请 求 ( BusWrite)。 这 
个 写 请 求 会 更 新 内 存 ， 并 对 所 有 远程 cache 进行 标识 检查 。 在 远程 cache 中 ， 只 要 有 同 BusWrite 
请 求 匹配 的 拷贝 数据 ， 其 对 应 的 V 位 就 将 清空 ， 从 而 使 相应 的 块 备份 无 效 。 在 将 总 线 控制 器 释 
放 之 前 ， 最 后 一 步 是 用 写 入 值 更 新 本 地 cache。 
“， 最 后 ， 对 于 写 失效 (write miss)。 在 写 分 配 策略 下 ， 在 写 操作 发 生 之 前 数据 块 会 被 取 到 
cache 中 ， 写 失效 请 求 会 被 插 人 到 请 求 缓冲 中 。 当 请 求 到 了 缓冲 队列 头 时 ， 先 获得 总 线 控制 权 ， 
然后 发 出 总 线 独占 读 请 求 (BusRdX) 。 除 了 将 数据 块 从 内 存 取 到 本 地 cache 中 ， 还 要 对 所 有 远 
程 cache 进行 标识 检查 ， 任 何 匹配 的 远程 cache 块 都 将 被 无 效 掉 。 此 外 ， 像 BusWrite 事务 一 样 ， 
内 存 拷贝 也 将 更 新 。 非 写 分 配 策略 下 的 cache 写 失 效 处 理 有 些 不 同 ，BusRdX 事务 可 以 用 一 个 简 
单 的 BusWrite 取代 。 

正如 之 前 提 到 的 ， 本 地 cache 需要 等 到 总 线 事务 完成 之 后 才 更 新 写 的 值 。 我 们 将 在 第 7 章 
看 到 ， 这 对 于 保证 正确 性 非常 重要 。 从 cache 一 致 性 的 非 正式 定义 可 以 获得 一 个 直观 的 解释 ， 
一 旦 总 线 事务 完成 ， 新 值 就 会 被 认为 是 “最 后 全 局 写 人 值 ” 。 因 此 ， 在 所 有 处 理 器 看 到 新 值 之 
前 ， 不 能 把 新 值 写 给 本 地 处 理 器 。 回 到 cache 一 致 性 的 非 正 式 定义 ， 当 写 请 求 被 执行 后 ， 从 任 
何 一 个 处 理 器 来 看 ， 值 都 是 “最 后 全 局 写 人 值 "， 因为 对 所 有 处 理 器 来 说 ， 对 这 个 值 都 是 一 
致 的 。 

现在 ， 考 虑 当 两 个 处 理 器 同时 访问 同一 数据 块 时 可 能 带 来 的 问题 ， 下 面 举例 说 明 。 

假设 两 个 处 理 器 P, 和 已 同时 对 地 址 A 发 出 写 请 求 ， 并 且 A 对 应 数据 块 在 两 个 
cache 中 都 有 副本 ， 那 么 协议 是 怎么 处 理 的 ? 

两 个 处 理 器 都 向 它们 自己 的 请 求 缓冲 插入 写 请 求 ， 并 且 两 个 控制 器 都 会 尝试 获取 总 线 。 如 
果 P, 的 总 线 请 求 先 被 允许 ， 其 对 应 的 BusWrite 请 求 会 无 效 掉 P cache 中 的 数据 块 。 当 P, 最 终 
获得 总 线 控制 权时 ， 如 果 采 用 写 分 配 策略 ， 它 需要 发 送 BusRdX 请 求 ， 而 不 是 BusWrite 请 求 。 
这 是 因为 现在 的 数据 块 已 经 过 期 了 ， 必 须 从 内 存 中 读 取 新 块 。 这 个 例子 说 明 ， 由 于 cache 间 相 
互 干 扰 从 而 引入 了 一 个 非常 重要 的 设计 间 题 。 一 种 解决 方法 是 取消 已 的 写 请 求 , 并且 尝试 发 
送 BusRdX 请 求 。 另 一 方面 ， 在 非 写 分 配 策略 中 ， 不 管 哪 一 个 cache 控制 器 获得 了 控制 权 ， 正 
确 的 动作 都 是 保持 BusWrite 请 求 。 这 是 cache 一 致 性 协议 设计 时 需要 处 理 的 众多 微妙 问题 中 的 
一 个 例子 。 我 们 稍 后 会 讲 到 其 他 问题 ， 这 些 问 题 都 是 由 于 目前 对 于 同一 数据 块 的 并 发 请 求 时 的 
竞争 条 件 所 引起 的 。 < 

在 支持 侦 听 cache 协议 的 设计 中 , 昧 识 查看 必须 对 所 有 请 求 以 及 所 有 cache 都 执行 ， 这 又 
引入 了 一 个 新 的 设计 问题 一 一 cache 控制 器 不 仅 要 对 处 理 器 的 请 求 进行 响应 ， 还 要 响应 总 线 的 
请 求 ， 这 可 能 会 导致 拥塞 。 总 线 请 求 引 起 的 冲突 可 能 会 导致 处 理 器 被 锁 住 ， 从 而 引起 更 高 的 访 
存 延 迟 。 绥 解 这 种 情况 的 办 法 之 一 是 复制 多 个 标识 存储 ， 并 且 将 处 理 器 一 侧 和 总 线 一 侧 的 标识 
存储 分 开 。 只 要 处 理 器 或 总 线 的 请 求 不 改变 标识 或 V (有效 ) 位 ， 两 个 标识 存储 中 的 检查 就 仍 
是 独立 的 。 不 过 ， 如 果 标 识 存储 拷贝 中 的 某 一 项 发 生变 化 ， 那 么 两 个 标识 存储 都 需要 更 新 从 而 
保证 一 致 性 。 值 得 庆幸 的 是 ， 这 种 更 新 只 发 生 在 发 送 总 线 请 求 或 接收 到 总 线 请 求 时 ， 并 且 只 是 
在 一 部 分 情况 下 需要 更 新 标识 存储 拷贝 。 

描述 行为 规范 的 状态 转换 图 

刻画 cache 协议 高 层 行为 特征 的 方法 是 状态 转换 图 (state-transition diagram)。 简 单 协 议 的 
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状态 转换 图 如 图 5-9 所 示 。 对 于 cache 控制 器 的 任意 一 个 给 定 输入 ， 图 中 给 出 了 对 应 cache 块 拷 
贝 的 下 一 个 状态 。 除 了 状态 转换 外 ， 图 中 还 给 表 5-1 cache 协议 的 输入 和 输出 
出 了 状态 转 缩写 描述 
换 的 结果 将 导致 哪 种 总 线 事务 。 此 外 , 每 PRd 处 理 器 读 
个 状态 还 控制 了 处 理 器 读 或 写 请 求 是 可 以 本 地 piwr 处 理 器 写 
完成 还 是 需要 发 起 一 个 cache 协议 事务 。 表 5- BusRq 对 块 的 读 请 求 
1 列 出 了 本 章 中 所 讲述 的 cache 协议 对 应 的 所 “BusWrite ”| 写 二 个 字 到 内 存 ， 并 且 无 效 掉 其 他 拷贝 
有 cache 控制 器 的 输入 和 输出 。 BusUpgr ”| 无 效 掉 其 他 拷贝 
图 5-9 给 出 了 协议 的 两 种 状态 : 有 效 或 无 。 BusUpdihte | 更 新 其 他 拷贝 
效 。 如 果 副 本 块 是 无 效 状 态 ， 则 处 理 器 读 BusRdx 读 一 个 块 ， 同 时 无 效 掉 其 他 拷贝 

















( processor read ，PrRd) 请 求 会 触发 一 个 BusRd Flush 给 请 求 cache 提供 一 个 块 
请 求 。 这 一 转换 在 状态 转换 图 中 用 PrRd/ $ 共享 线 有 效 
BusRd 表示 。 对 无 效 块 的 处 理 器 写 (processot _5 共享 线 无 效 


write;，PrWr) 操作 会 向 总 线 发 送 BusRdX 请 

求 。 如 果 块 是 有 效 的 ， 处 理 器 读 不 会 导致 状态 改变 ,也 不 会 引起 任何 协议 事务 。 然 而 ,对 于 有 
效 块 的 处 理 器 写 会 产生 BusWrite 请 求 ， 但 不 会 改变 状态 。 总 线 一 侧 的 请 求 也 可 能 会 导致 状态 转 
变 。 比 如 ， 对 于 一 个 有 效 块 ， 如 果 收 到 一 个 和 该 有 效 块 匹配 的 BusWrite 和 BusRdX 请 求 ， 那 么 
该 数据 块 将 会 被 无 效 掉 ， 从 而 将 导致 一 个 进入 无 效 状态 的 转换 。 


BusWrite/— 
BusRdX/— 


PrWr/BusWrite 有 效 BusWrite/—= 
PrRd/— BusRdX/- 


PrRd/BusRd i 
PrWr/BusRdX 


图 5-9 简单 侦 听 cache 协议 的 状态 转换 图 


图 5-9 的 状态 转换 图 只 给 出 了 协议 的 高 层 行为 ， 一 个 详细 实现 cache 协议 的 状态 转换 图 会 
包含 更 多 的 状态 。 在 接 下 来 的 部 分 ， 状 态 转换 图 表示 的 都 只 是 不 同 cache 协议 的 高 层 行为 而 不 
是 其 具体 实现 。 


5:4.3 侦 听 cache 协议 的 设计 空间 


知道 了 基本 的 硬件 结构 ， 以 及 简单 侦 听 cache 协议 的 行为 ， 现 在 我 们 考虑 商用 机 器 的 cache 
协议 设计 空间 。 通 过 运行 实际 程序 可 以 发 现 简单 协议 中 存在 的 很 多 性 能 限制 ， 而 这 些 cache 协 
议 就 是 要 解决 这 些 问题 。 

尽管 简单 ， 但 是 之 前 介绍 的 简单 协议 有 很 严重 的 潜在 性 能 瓶颈 ， 一 个 明显 低 效 的 地 方 就 是 
所 有 的 写 请 求 都 会 发 送 总 线 事务 。 实 际 上 ， 不管 多 处 理 器 是 运行 多 个 独立 的 程序 还 是 一 个 并 行 
程序 ， 处 理 期 间 共享 的 内 存 块 都 是 很 少 的 ， 绝 大 部 分 块 是 单个 处 理 器 独占 访问 的 。 因 此 ， 如 果 
能 将 访问 这 些 非 共享 的 读 和 写 请 求 在 本 地 cache 解决 ， 而 不 发 送 需 要 同 其 他 cache 交互 的 总 线 
事务 ， 那 就 明显 获 益 。 接 下 来 ， 假 设 cache 是 写 回 的 。 对 于 非 共 享 块 的 访问 不 应 该 影响 其 他 
cache ， 这 是 我 们 下 一 个 要 讨论 的 具体 协议 的 基础 。 

回忆 一 下 ， 在 支持 写 回 的 cache 中 每 个 数据 块 有 两 个 状态 位 : 一 个 有 效 位 (V) 和 一 个 修 
改 位 (M)， 后 者 有 时 也 称 为 脏 位 。 现 在 ,我 们 给 出 支持 写 回 的 cache 协议 的 高 层 行为 ,我们 称 


多 处 理 器 系统 L277 


这 种 cache 协议 为 MSI 协议 。 图 5-10 给 出 了 对 应 的 状态 转换 图 。 之 所 以 称 之 为 MSI 协议 ,是 因 
为 它 有 3 个 状态 : 修改 状态 (M)， 共 享 状态 (S) ,无效 状态 (1)。 


PrWr/ 


BusRdX/Flush BusRdX 






BusRd/— 
BusUpgr/— 
BusRdX/— 


图 5-10 ”MSI 协议 的 状态 转换 图 

MSI 协议 的 行为 特征 

下 面 说 明 图 5-10 中 MSI 协议 的 三 个 状态 。 修 改 状态 ( M) 表示 本 地 cache 的 备份 块 是 系统 
中 唯一 保持 最 新 数据 块 。 因此， 处 理 器 的 读 和 写 请 求 可 以 完全 在 本 地 完成 ， 而 不 需要 同 其 他 
cache 交互 。 由 于 cache 采取 写 回 策略 ， 因 此 不 必 将 更 新 的 块 写 回 ， 这 也 导致 内 存 中 的 块 保存 的 
是 旧 值 。 另 一 方面 ， 处 于 共享 状态 (S) 的 cache 块 除 了 这 个 本 地 块 外 ， 在 内 存 和 其 他 远程 
cache 中 可 能 还 有 多 个 备份 ， 此 时 内 存 中 的 数据 是 最 新 的 ， 或 者 说 是 干净 的 。 对 于 共享 状态 的 
cache 块 的 读 请 求 和 远程 cache 无 关 ， 可 以 在 本 地 完成 ， 但 是 ， 对 于 写 请 求 ， 必 须 无 效 掉 远 程 
cache 中 的 相应 块 。 最 后 ， 无 效 状态 (I) 同 简单 协议 中 的 无 效 状态 相同 ， 即 本 地 cache 的 备份 
块 是 无 效 的 ， 或 者 本 地 cache 中 没有 该 块 。 因 此 ， 处 理 器 的 读 写 请 求 都 需要 查询 其 他 cache 和 
内 存 才 能 完成 。 

我 们 仔细 观察 一 下 与 处 理 器 读 写 请 求 相 关 的 cache 一 致 性 事务 与 简单 协议 相 比 有 什么 不 
同 。 我 们 先 假设 内 存 数据 唯 二 有效 的 答 份 就 是 内 存 中 的 数据 块 。 处 理 器 读 取 数 据 块 会 触发 从 I 
状态 到 S 状态 的 事务 。 对 于 同一 个 处 理 器 接 下 来 对 该 块 的 写 请 求 ，cache 控制 器 会 发 射 一 个 总 
线 更 新 请 求 (bus-upgrade request，BusUpgr) ， 该 事务 会 无 效 掉 所 有 远程 cache 对 该 块 的 备份 ， 
本 地 cache 块 的 状态 会 从 $ 转 到 M。 此 后 ， 该 处 理 器 的 后 续 读 写 请 求 就 可 以 在 本 地 完成 了 。 

考虑 另外 一 种 情况 ， 假 设 处 理 器 P. 和 忆 的 cache 中 都 有 内 存 块 的 有 效 备 份 ， 两 个 备份 的 
状态 都 处 于 $ 状态。 如果 已 对 块 进行 写 ， 那么 P 的 cache 块 必 须 被 无 效 掉 。 这 会 导致 P; 的 
cache 中 的 块 状态 从 S 变 为 M， 这 点 与 简单 协议 不 同一 一 在 简单 协议 中 不 会 有 状态 变化 。 假 设 
接 下 来 P; 再 次 读 该 块 ， 与 简单 协议 不 同 的 是 ， 在 简单 协议 中 ， 可 以 从 内 存 中 得 到 读 失 效 的 数 
据 。 在 MSI 中 ， 唯 一 更 新 了 的 块 在 P; 的 cache 中 ， 这 就 需要 P; 的 cache 提供 P 所 需要 的 块 ， 
这 一 点 对 于 侦 听 cache 协议 的 实现 非常 重要 。 注 意 ，P; 向 P 的 cache 提供 块 的 同时 也 会 更 新 内 
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存 ， 这 样 内 存 可 以 保存 对 共享 状态 块 的 最 新 数据 。 在 状态 转换 图 中 ， 这 个 操作 被 标注 为 刷新 ， 
它 会 出 现在 从 M 态 转换 到 $ 态 ， 以 及 从 M 态 转 换 到 工 态 的 过 程 中 。 

MSI 协议 的 硬件 结构 

现在 来 仔细 看 看 实现 MSI 协议 所 需 的 硬件 结构 以 及 比 简单 cache 协议 多 了 些 什 么 。 我 们 主 
要 关注 底层 的 总 线 协议 ， 因 为 它们 构成 了 cache 间 的 基本 事务 。 

侦 听 cache 协议 设计 的 一 个 中 心 问 题 是 如 何 让 cache 自己 完成 侦 听 动作 。 每 个 总 线 事务 都 
包含 一 个 侦 听 动作 ， 在 这 个 动作 中 ,会 访问 所 有 cache 的 标识 目录 ， 然 后 根据 协议 会 采取 某 些 
具体 措施 。 比 如 ， 在 MSI 协议 中 ， 当 发 射 一 个 总 线 读 或 总 线 更 新 请 求 时 ， 会 产生 侦 听 动作 。 为 
了 理解 这 其 中 包含 的 内 容 ， 我 们 逐个 考虑 与 之 相关 的 总 线 事务 。 假 设 现在 的 总 线 模型 如 
图 5-11a 所 示 ， 包 括 三 个 逻辑 片段 : 地 址 /数据 、 请 求 类 型 以 及 侦 听 响应 。 总 的 来 说 ， 总 线 事 
务 会 先 给 总 线 提供 地 址 和 请 求 ， 然 后 请 求 会 触发 侦 听 动作 。 


| | 


地 址 /数据 





I 








b ) 握手 过 程 中 的 异 或 连 线 ( wired-NOR ) 总 线 
图 5-11 侦 听 总 线 


第 一 个 问题 是 ， 要 使 所 有 的 cache 实施 侦 听 动作 ， 地 址 和 请 求 需 要 在 总 线 上 保持 多 久 ? 我 
们 希望 这 个 时 间 越 短 越 好 ， 因 为 这 直接 影响 cache 失效 的 开销 。 这 个 时 间 由 多 个 方面 决定 : 总 
线 长 度 、 连 接 的 cache 数目 以 及 检查 每 个 cache 标识 的 所 需 时 间 。 在 每 个 处 理 器 节点 ,来 自 处 
理 右 一 侧 和 总 线 一 侧 的 标识 查找 操作 可 能 存在 冲突 ， 这 种 冲突 导致 标识 检查 的 时 间 发 生变 化 。 

有 两 种 基本 方法 可 以 实现 侦 听 动作 : 异步 俩 听 (asynchronous snooping) 和 同步 侦 听 (syn: 
chronous snooping) 。 在 异步 侦 听 中 ， 当 所 有 远程 cache 完成 侦 听 动作 后 ， 需 要 给 本 地 cache 一 个 
握手 信号 。 握 手 信 号 的 一 个 典型 实现 方法 如 图 5$-11b 所 示 。 这 种 方法 计算 D1 到 DN 的 异 或 值 。 
其 实现 是 通过 被 动 地 将 每 个 晶体 管 通过 一 个 电阻 连 在 VDD 上 。 如 果 输 入 信号 被 确定 为 逻辑 1， 
那么 对 应 的 晶体 管 会 对 地 产生 DONE 输出 信号 (GND 或 逻辑 0)。 因 此 ， 要 使 DONE 变 为 逻辑 
1， 所 有 的 输入 都 要 求 是 0。 先 对 每 个 D 输出 恒定 的 逻辑 1， 当 执行 完 标识 检查 后 会 输出 逻辑 0， 
通过 这 种 方法 ， 可 以 在 所 有 远程 cache 都 完成 标识 检查 时 ， 通 知 本 地 cache。 当 所 有 操作 完成 
后 ，DONE 被 置 为 1。 

所 有 异步 协议 都 存在 一 个 缺点 ， 那 就 是 握手 需要 花费 额外 的 时 间 。 在 我 们 讨论 的 情况 中 ， 
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这 个 额外 时 间 包 括 : 所 有 cache 控制 器 首先 通过 驱动 DONE 信号 变 为 逻辑 0 来 对 当前 地 址 进行 
响应 ， 然 后 通过 侦 听 行为 来 报告 该 动作 已 经 完成 。 异 步 协议 的 替代 方法 之 一 是 同步 侦 听 协议 ， 
在 同步 协议 中 ， 需 要 确立 一 个 时 间 上 界 ， 在 这 个 上 界 时 间 内 ， 所 有 cache 都 能 完成 标识 检查 并 
且 进 行 响应 。 这 个 上 界 还 要 考虑 来 自 处 理 器 请 求 和 总 线 请 求 的 冲突 。 一 种 使 最 坏 情 况 时 间接 近 
平均 时 间 的 方法 是 ， 复 制 多 个 标识 目录 ， 一 个 对 应 处 理 器 一 侧 的 请 求 ， 另 一 个 对 应 总 线 一 侧 的 
请 求 。 总 线 一 侧 的 标识 目录 经 常 被 称 为 对 偶 标 识 目 录 。 需 注意 的 是 即使 复制 了 标识 目录 ， 还 需要 
保持 两 个 目录 的 更 新 以 确保 一 致 性 。 在 所 有 cache 完成 之 前 ， 这 一 开销 也 要 被 计 人 最 坏 情 况 时 间 。 

另 一 个 影响 侦 听 设计 的 方面 是 从 侦 听 操作 返回 的 信息 。 我 们 通过 下 面 的 例子 来 说 明 这 个 
问题 。 

假设 一 个 处 理 器 发 出 了 一 个 读 请 求 ， 但 在 本 地 cache 中 失效 了 。 那 么 ， 什 么 情况 
下 应 该 由 内 存 响应 总 线 读 请 求 ? 什么 情况 下 又 应 该 由 远程 cache 来 响应 ? 

如 果 该 数据 块 在 某 个 远程 cache 中 的 状态 是 M， 那 么 这 个 远程 cache 应 该 响应 。 而 在 其 他 
情况 下 ， 应 该 由 内 存 响 应 。 < 

这 个 例子 提出 了 一 个 很 有 趣 的 问题 ， 为 了 判断 应 该 由 内 存 响 应 还 是 由 远程 cache 响应 ， 需 
要 增加 哪些 硬件 支持 ? 同 其 他 总 线 事务 一 样 ， 总 线 远程 事务 会 先 产 生 侦 听 动 作 ， 就 像 之 前 描述 
的 那样 。 一 旦 侦 听 完成 ， 拥 有 最 新 修改 过 备份 的 那个 cache 必须 产生 一 个 信号 ， 表 明 它 拥有 唯 
一 正确 的 备份 ， 内 存 中 的 备份 已 经 过 时 了 。 我 们 可 以 利用 同 图 5-11b 类 似 的 实现 方法 ， 但 是 重 
新 定义 输入 和 输出 来 完成 这 个 工作 。 将 ML 到 MN (而 不 是 D1 到 DN) 作为 输入 ,将 REMOTE 
(而 不 是 DONE) 作为 输出 。 当 cache i 中 的 块 状态 为 M 时 ,将 Mi 置 位 。 如 果 有 某 个 cache 中 的 
块 为 M 状态 ，REMOTE 就 被 清 零 ， 表 示 那 个 远程 cache 将 会 响应 。 在 总 线 事务 的 下 一 阶段 ， 远 
程 cache 会 将 块 送 给 需要 的 cache， 同 时 ， 内 存 的 块 也 会 同步 进行 更 新 。 

这 种 模式 存在 一 个 性 能 上 的 问题 ， 当 内 存 必 须 进 行 响应 时 ， 远 程 cache 执行 侦 听 动作 所 需 
的 时 间 处 在 访 存 通路 的 关键 路 径 上 。 但 是 ， 启 动 内 存 访问 和 执行 侦 听 动作 是 可 能 并 行 执行 的 。 
只 要 还 有 某 个 cache 块 的 状态 是 M， 那 么 内 存 就 不 能 响应 ， 这 一 点 很 重要 。 只 有 确保 这 些 ， 内 
存 才能 完成 总 线 上 的 传输 。 

除了 读 写 请 求 要 区 别 对 竺 以外， 简单 协议 和 MSI 协议 的 一 个 重要 不 同 是 ， 简 单 协议 采用 写 
穿 透 cache， 而 MSI 采用 写 回 cache。 在 写 回 cache 中 ， 当 一 个 读 请 求 失 效 后 ， 如 果 这 个 失效 导 
致 一 个 M- 状 态 的 块 被 替换 出 ， 那 么 这 个 备份 必须 要 写 回 内 存 。 这 个 被 换 出 的 块 需要 尽快 写 回 ， 
因为 这 个 过 程 处 在 解决 失效 的 读 请 求 访 存 关键 路 径 上 。 写 回 块 时 ,为 了 避免 一 直 等 待 总 线 ， 一 
个 常用 的 办 法 是 增加 一 个 写 回 (或 victim) 缓冲 。victim 块 一 开始 暂 存 在 本 地 的 victim 缓冲 中 ， 
这 样 读 失 效 请 求 就 可 以 尽早 送 到 总 线 上 。 这 里 需要 注意 一 个 很 关键 的 正确 性 问题 一 一 此 时 可 能 
某 个 其 他 的 cache 发 送 读 请 求 要 访问 victim 缓冲 中 的 块 。 对 于 这 种 读 请 求 的 正确 响应 是 刷 掉 
victim 块 ， 因 为 victim 缓冲 是 整个 系统 中 唯一 有 效 的 块 备 份 。 这 样 做 的 结果 就 是 ， 写 回 缓冲 也 
要 参与 所 有 的 侦 听 动作 (包括 标识 检查 ) ， 就 像 cache 一 样 。 

让 一 步 推 | 的 cacoheier 玛 性 协 说 表 5-2 包含 3 个 处 理 器 的 访问 序列 实例 

现在 介绍 一 种 推广 的 ( 泛 化 类 ) cache 一 致 
性 协议 ， 这 个 协议 的 目的 是 为 了 确定 基本 MSI 协 
议 的 性 能 瓶颈 。 下 面 探讨 cache 一 致 性 协议 对 于 
一 组 共享 内 存 访问 的 性 能 影响 。 

在 表 5-2 给 出 的 例子 中 ， 处 理 器 1 先 发 射 了 
一 个 对 A 的 读 请 求 ， 紧 接着 发 送 两 个 对 A 的 写 
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请 求 。 第 一 个 读 请 求 ， 将 内 存 中 的 块 读 取 到 处 理 器 1 的 cache 中 ， 状 态 为 S。 接 下 来 的 写 请 求 
会 触发 总 线 更 新 请 求 ， 并 且 在 本 地 cache 中 ， 将 块 的 状态 改 为 M。 由 于 其 他 处 理 器 中 没有 数据 
块 A 的 备份 ， 因 此 总 线 更 新 事务 是 没有 必要 的 。 如 果 新 增加 一 个 独占 (Exclusive，E) 状态 ， 
表明 现在 的 这 个 cache 块 是 系统 中 所 有 cache 中 唯一 的 备份 ， 那 么 就 可 能 避免 上 述 的 多 余 总 线 
事务 。 我 们 稍 后 会 讲解 ， 如 何 将 图 5-10 中 的 MSI 协议 状态 转换 图 扩展 成 包括 状态 下 的 转换 图 。 

回 到 我 们 的 例子 ， 由 于 块 的 状态 为 M， 这 两 个 写 操作 执行 时 可 以 不 产生 总 线 事务 。 对 该 块 
的 下 一 次 访问 是 处 理 器 2 的 读 请 求 。 这 个 读 请 求 会 miss， 然 后 会 发 送 总 线 读 请 求 ， 并 由 处 理 器 
给 出 响应 。 处 理 器 1 中 的 数据 块 状态 会 从 M 变 为 S$。 接 下 来 ， 处 理 器 3 同样 发 送 对 块 的 读 请 
求 ， 在 本 地 同样 会 miss， 然 后 再 次 发 送 总 线 读 请 求 。 这 个 事务 由 内 存 解决 ， 而 不 是 处 理 器 1 解 
决 ， 因 为 内 存 中 的 块 已 经 是 共享 的 并 且 更 新 过 的 。 

处 理 器 2 和 3 的 读 失效 有 个 基本 的 不 同 。 第 一 个 失效 必须 被 一 个 远程 cache 响应 ， 而 第 二 
个 失效 既 可 以 由 远程 cache， 也 可 以 由 内 存 来 响应 。 我 们 称 第 一 种 失效 为 脏 失 效 ， 而 第 二 种 失 
效 为 净 失 效 。 在 MSI 协议 中 ， 净 失效 由 内 存 响 应 。 然 而 ， 如 果 cache 到 cache 的 传输 比 内 存 到 
cache 的 传输 要 快 ， 那 么 也 可 以 通过 远程 cache 更 快 地 解决 。 

IEEE 标准 中 的 MOESI 协议 通过 增加 两 个 状态 和 0 解决 了 之 前 提 到 的 性 能 问题 。 图 5-12 
给 出 了 MOESI 协议 的 状态 转换 图 ， 它 解决 了 MSI 协 议 的 两 个 性 能 短 板 。 第 一 个 扩展 是 新 增 的 
状态 王 〈 独 吉 ) 。 处 在 状态 工 的 块 备份 是 只 读 的 ,但 是 同 $ 状态 相反 ， 它 保证 整个 系统 中 ， 这 
是 唯一 的 eache 拷贝 。 这 个 特性 消除 了 本 地 处 理 器 读 取 该 块 时 发 送 的 总 线 读 请 求 。 为 了 实现 这 
个 多 出 来 的 状态 ， 需 要 增加 一 个 被 称 为 共享 的 新 握手 信号 。 其 硬件 实现 同 图 5-11b 中 的 硬件 结 
构 类 似 ， 当 cache 需要 某 个 数据 块 备 份 时 ， 发 送 总 线 读 请 求 时 ， 侦 听 动 作 的 结果 表明 这 个 块 在 
cache 中 的 状态 是 卫 还 是 S。 如 果 共 享 线 是 低 电 平 ， 在 图 5-12 中 用 S 表示 ， 那 么 这 个 块 就 处 在 
状态 了 。 否则 ， 它 处 在 状态 S。 


PrRd/— 
PrWr/— 










BusRd/Flush 
PrRd/— 


Ci 2 
BusRd 







PrRd(S)/ 
BusUpgr/— BusRd 


BusRdX/Flush 


5-12 MOESI 协议 的 状态 转换 图 
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当 使 用 远程 cache 的 有 效 内 存 备份 块 来 满足 净 失 效 的 需求 时 ， 如 果 有 多 个 有 效 的 cache 备 
份 时 ， 必 须 选 择 一 个 来 提供 数据 。 这 一 问题 的 常见 解决 办 法 是 引入 拥有 权 的 定义 。 当 cache 拥 
有 某 个 数据 块 时 ， 它 必须 负责 : 当 其 他 cache 请 求 该 数据 块 时 ， 提 供 数据 块 备份 ; 当 块 从 cache 
中 蔡 换 掉 时 ， 将 拥有 权 归 还 给 内 存 。 如 果 拥 有 权 被 传送 给 内 存 ， 那 么 内 存 的 数据 也 是 更 新 
了 的 。 

对 于 状态 为 卫 或 M 的 块 ， 表 示 该 块 所 在 的 cache 就 是 数据 块 的 拥有 者 。 当 存在 多 个 cache 
备份 时 ， 则 可 以 显 式 指定 某 个 cache 作为 拥有 者 。 图 5-12 的 MOESI 协议 增加 了 一 个 新 状态 0， 
即 拥有 状态 ， 来 跟踪 块 的 拥有 权 。 当 某 个 cache 包含 一 个 状态 为 的 块 ， 并且 其 他 cache 请 求 
该 块 时 ， 本 地 cache 备份 会 变 为 状态 0， 并且 在 将 拥有 权 传 给 内 存 或 其 他 cache 之 前 ， 会 对 总 
线 上 任何 一 个 需要 该 块 的 总 线 读 请 求 进行 响应 。 如 果 处 在 状态 0 的 块 被 替换 掉 ， 那 么 这 个 
块 要 被 写 回 内 存 ， 并 且 拥 有 权 也 返回 内 存 。 如 果 处 在 状态 M 的 块 被 替换 掉 ， 则 拥有 权 被 传 
给 内 存 。 最 后 ， 当 一 个 处 在 状态 0、 玉 或 M 的 块 被 无 效 掉 时 ， 拥 有 权 会 传 给 对 这 个 块 进行 写 
的 节点 。 

作为 MOESI 协议 的 一 个 子 集 ，MESI 是 现在 商用 机 中 极其 常用 的 协议 。 出 现 这 种 情况 的 主 
要 原因 是 ,状态 的 引入 对 于 多 道 程序 的 运行 环境 来 说 ， 消 除了 大 多 数 的 总 线 更 新 请 求 ， 使 得 
总 线 传递 变 少 。 


5.4.4 协议 变种 

在 一 些 并 行程 序 中 ， 有 很 多 相同 的 读 写 共享 模式 ， 为 此 ， 我 们 现在 考虑 一 些 对 于 cache 协 
议 的 优化 。 第 一 组 优化 是 针对 基于 无 效 策 略 的 cache 一 致 性 协议 , 例如 MSI 和 MOESI 协议 。 第 
二 组 优化 针对 的 是 基于 更 新 策略 的 cache 一 致 性 协议 。 

基于 无 效 策略 的 cache 协议 优化 

生产 者 - 消费 者 共享 (producer-consumer sharing) 是 指 有 一 个 或 多 个 生产 者 线程 来 修改 数 
据 ， 并 有 一 个 或 多 个 消费 者 线程 在 数据 修改 后 进行 读 取 的 程序 行为 。 

考虑 如 下 的 读 〈R)、 写 〈 取 ) 操作 序列 ， 其 中 i 代表 处 理 器 i 执行 的 操作 : 

WR RR,, Ws Ris RR 
假设 在 操作 序列 开始 前 ， 所 有 的 cache 中 都 有 备份 块 。 那 么 在 MSI 协议 下 ， 这 种 访问 序列 会 产 
生 哪 些 总 线 事务 呢 ? , 

由 于 所 有 cache 最 初 都 有 块 的 备份 ， 处 理 器 P, 的 写 操 作 会 发 送 总 线 更 新 请 求 ， 使 得 其 他 
cache 中 的 备份 都 无 效 。 接 下 来 ， 这 些 处 理 器 发 送 读 请 求 ， 导 致 3 个 总 线 读 事务 。 此 后 ， 这 种 
访问 模式 再 多 次 重复 进行 。 最 终 的 结果 就 是 ， 这 个 序列 中 的 所 有 处 理 器 访问 操作 都 会 产生 总 线 
事务 。 \ a 

在 每 个 写 操作 后 的 三 个 总 线 读 事务 都 会 导致 同一 个 块 在 总 线 上 传输 ， 这 不 仅 浪 费 了 宝贵 的 
带宽 ， 此外， 由 于 将 数据 块 装载 到 cache 中 有 一 定 的 延迟 ， 因 此 也 会 影响 那些 要 发 起 读 操作 的 
处 理 器 。 有 一 种 叫 作 读 抄写 或 读 广播 的 方法 ， 可 以 在 P, 的 cache 控制 器 发 出 块 的 读 请 求 时 就 将 
块 装载 到 所 有 的 三 个 cache 中 。 当 读 取 的 数据 块 返回 时 ， 所 有 保存 该 块 备份 但 处 在 无 效 状态 的 
cache 就 会 从 总 线 上 直接 获取 到 这 个 块 。 这 样 做 的 一 个 缺点 是 ， 块 可 能 会 被 装载 到 一 个 并 不 会 
访问 它 的 cache 中 ， 从 而 造成 cache 污染 。 另 外 ， 由 于 可 能 会 与 处 理 器 访问 冲突 ， 将 块 装载 到 
cache 中 也 有 一 定 的 额外 开销 。 

另 一 种 优化 方案 解决 的 是 迁移 共享 问题 。 在 绝 大 多 数 的 并 行程 序 中 ， 共 享 数据 的 修改 发 生 
在 临界 区 中 。 考 虑 图 5-2 所 示 的 并 行程 序 临界 区 : 
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LOCK (LV); 

UNLOCK (LV) ; 
临界 区 的 语义 保证 对 sum 的 读 、 修 改 以 及 写 回 是 原子 的 。 由 于 对 sum 的 读 - 修改 - 写 带 来 了 先 
读 后 写 的 操作 ， 假 设 三 个 处 理 器 已， 已 和 忆 连续 地 进入 临界 区 ， 在 MSI 协议 中 会 连续 发 生 下 
面 的 总 线 事务 序列 : 

BusRd, ，BusUpgr ，BusRd, ，BusUpgr ，BusRd, ，BusUpgrs ，… 
这 种 访问 模式 就 是 迁移 共享 。 在 上 面 的 序列 中 ，cache 控制 器 发 射 一 个 总 线 读 ， 接 着 发 射 一 个 
总 线 更 新 ， 这 两 个 事务 都 由 最 近 拥 有 块 且 状态 为 M 的 eache 响应 。 一 种 显而易见 的 优化 方法 
是 ， 当 一 个 块 拷贝 请 求 发 生 时 ， 用 一 个 BusRdX 请 求 来 取代 分 开 的 BusRd 和 BusUpgr。 采 用 这 
种 优化 后 ， 总 线 事务 序列 就 会 变 成 下 面 的 样子 : 
BusRdX, ，BusRdX, ，BusRdX; ，… 
这 就 减少 了 每 次 对 迁移 块 读 - 修改 - 写 时 需要 的 BusUpgr 请 求 。 为 了 利用 这 种 优化 ， 协 议 需要 
有 一 种 方法 来 发 现 迁 移 共享 、 启 用 优化 以 及 关闭 优化 。 有 一 种 被 证 明 可 以 鲁 棒 工作 的 方法 : 当 
cache 发 射 总 线 读 请 求 时 ， 如 果 恰 好 只 有 一 个 cache 拥有 这 个 块 的 有 效 备 份 ， 那 么 就 启用 优化 。 
例如 ， 当 BusRd, 发 射 到 总 线 上 时 ， 唯 一 块 备份 在 已 的 cache 中 。P, 通过 查看 块 的 状态 为 M， 
可 以 知道 它 拥 有 唯一 的 一 个 备份 ， 就 会 将 总 线 读 请 求 转化 为 总 线 独占 读 请 求 ， 并 且 传 输 块 的 找 
贝 。 为 了 进一步 观察 一 个 块 在 什么 时 候 结 束 迁 移 共享 ， 考 虑 下 面 的 例子 : 
BusRd,, BusUpgr,, BusRd,, BusUpgr,, BusRd;, BusRd,, BusRd,;, *… 

这 个 序列 和 之 前 的 主要 不 同 在 于 ， 这 个 块 的 迁移 共享 一 直 持续 到 忆 发 送 对 块 的 拷贝 请 求 。 
然而 ， 下 一 个 对 块 的 访问 是 P,， 而 不 是 P; 对 块 的 修改 。 这 时 如 果 不 关 闭 优化 就 会 出 现 问 
题 ，P, 将 会 得 到 对 块 的 一 份 独占 的 拷贝 ，P, 接 下 来 对 该 块 的 访问 就 会 失效 。 这 种 失效 在 
MSI 协议 下 是 不 应 该 发 生 的 。 幸 运 的 是 ， 如 果 当 一 个 处 理 器 对 块 的 读 请 求 后 面 紧 跟着 另 一 个 
处 理 器 的 读 请 求 ， 并 且 后 面 的 读 请 求 发 生 在 前 一 个 处 理 器 修改 块 之 前 ， 那 么 此 时 就 可 以 关 
闭 优化 。 

通过 对 迁移 共享 的 优化 来 扩展 MSI 协议 非常 直接 。 在 探测 过 程 中 ， 状 态 S 被 分 为 两 个 状 
态 : S2 和 S，52 指 恰好 有 两 个 拷贝 ,而 S 指 有 一 个 或 多 于 两 个 拷贝 。 通 过 下 面 的 过 程 可 以 发 现 
迁移 共享 。 当 cache i 中 有 一 个 处 于 状态 M 的 块 ， 并 且 cache j 发 射 了 总 线 读 请 求 ， 则 cache i 中 
的 块 状态 改 为 S2 ， 将 块 送 入 cache j 并 且 状 态 设 为 S。 在 处 理 器 ) 发 射 下 一 个 写 请 求 时 ，cachej 
发 射 一 个 更 新 请 求 ， 此 后 该 块 被 认为 是 迁移 的 。 为 了 跟踪 迁移 块 ， 协 议 增 加 了 两 个 状态 : 干净 
迁移 和 脏 迁 移 。 干净 迁移 是 指 块 在 优化 开启 的 时 候 被 装载 的 ， 但 是 还 没有 在 本 地 被 修改 。 脏 迁 
移 是 指 在 优化 开启 时 装载 的 块 ， 并且 已 经 被 修改 过 了 。 当 对 干净 迁移 块 有 一 个 来 自 其 他 eache 
的 读 请 求 时 ， 对 该 块 的 迁移 优化 就 会 被 关闭 。 这 样 做 的 原因 是 ， 在 迁移 共享 的 访问 模式 中 ， 处 
理 器 发 射 的 load 指令 和 紧 接 着 的 store 存储 块 的 指令 之 间 ， 是 不 会 插入 有 其 他 处 理 器 的 load 操 
作 的 。 

基于 更 新 策略 的 cahce 协议 优化 

目前 为 止 ， 我们 讨论 的 维护 cache 一 致 性 的 协议 都 是 尽早 清除 旧 的 拷贝 。 这 对 于 数据 共享 
较 少 的 多 进程 工作 很 有 效 ， 但 是 当 共 享 量 很 多 时 就 没 那么 有 效 了 ， 例如， 在 生产 者 - 消费 者 共 
享 的 情况 下 。 即 使 有 之 前 说 过 的 读 抄写 优化 ， 基 于 无 效 策略 的 协议 仍 会 导致 所 谓 的 一 致 性 失 
效 ， 这 种 失效 是 由 无 效 策略 引起 的 。 另 外 一 种 完全 不 同 的 方法 是 ， 当 某 个 块 被 修改 时 ， 尽 早 更 
新 所 有 远程 cache 中 的 备份 ， 而 不 是 无 效 掉 它 们 。 

接 下 来 介绍 20 世纪 80 年 代用 于 Xerox Palo Alto Research Center (PARC) 的 Dragon 多 处 理 
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中 的 基于 更 新 策略 协议 的 行为 。 这 种 协议 的 状态 同 MOESI 协议 相同 ,图 5-13 给 出 了 它 的 状态 
转换 图 。 图 中 为 了 简化 省 略 了 无 效 状态 。 同 之 前 介绍 的 协议 相同 ， 状 态 的 输入 和 输出 由 表 5-1 
给 出 。 注 意 这 个 协议 也 依赖 于 侦 听 远程 cache 拷贝 的 共享 线 。 由 于 大 部 分 与 MSI 协议 相同 ,在 
这 里 不 对 所 有 的 事务 进行 讲解 ， 主 要 关注 两 种 事件 : 读 失效 和 写 命中 。 


PrRd/— 
PrWr/— 






BusRd/ 
Flush 









PrWr(S)/ 
BusUpdate/— 


BusUpdate/— 
PrWr/BusUpdate(S) 


BusRd/Flush 


PrRd/= PrRd/- 


BusUpdate/— 
图 5-13 ”基于 更 新 策略 的 cache 协议 的 状态 转换 图 (Dragon 系统 ) 


读 失效 。 同 MOESI 协议 一 样 ， 如 果菜 个 处 理 器 发 生 读 失效 ， 并且 其 他 cache 没有 备份 ， 那 
么 就 从 内 存 中 装载 数据 块 ， 并 且 状 态 置 为 E。 如 果 其 他 cache 有 备份 ,那么 数据 块 的 状态 置 
为 S。 

写 命中 。 这 种 情况 下 ， 根 据 是 否 其 他 块 有 该 块 的 备份 ， 采 取 相 应 的 动作 。 如 果 没 有 其 他 备 
份 ， 即 块 状态 为 了 了， 则 cache 块 的 状态 改 为 M 并 且 不 会 产生 总 线 事务 ， 这 与 MESI 相同 。 这 种 
协议 与 基于 无 效 策 略 协议 的 主要 不 同 在 于 ， 如 果 此 时 其 他 cache 仍 有 块 备份 ,那么 该 采取 什么 
动作 。 这 个 协议 并 不 会 发 射 BusUpgr 来 无 效 掉 其 他 块 ， 相 反 ， 它 会 发 射 一 个 总 线 更 新 ( BusUp- 
date) 请 求 来 更 新 其 他 拷贝 。 更 新 是 对 于 块 状态 为 $ 或 0 的 块 。 当 一 个 块 的 状态 为 .0 或 S 时 ， 
其 他 cache 中 可 能 存在 备份 ， 因 此 ， 必 须 对 共享 线 进行 侦 听 。 如 果 共 享 线 未 激活 ， 表 明 没有 远 
程 拷贝 块 ， 将 块 状态 改 为 M 即 可 。 如 果 某 个 处 于 状态 0 的 块 被 替代 了 ， 拥 有 权 会 转移 到 内 存 
或 者 其 他 含有 状态 为 $ 的 块 的 cache， 就 像 图 5-12 中 的 MOESI 协议 一 样 。 为 了 简化 ,图 5-13 没 
有 显 式 地 画 出 无 效 状态 ， 但 是 换 出 的 数据 块 状态 会 隐 式 地 改 为 无 效 状 态 。 

一 个 重要 的 问题 是 ， 在 哪 种 程序 行为 下 ， 基 于 无 效 策略 的 协议 或 者 基于 更 新 策略 的 协议 会 
更 有 效 ? 在 权衡 二 者 时 ， 一 个 非常 有 用 的 模型 是 写 运行 模型 。 

定义 5.2 ( 写 运 行 ) ”给 定 一 个 处 理 器 读 写 序列 ， 处 理 器 i 的 读 ( 写 ) 被 记 为 R,(W,)。 
一 个 写 运行 是 指 同 一 个 处 理 器 的 一 连 串 写 操作 ， 直 到 出 现 其 他 处 理 器 的 读 写 操作 。 写 运行 的 长 
度 是 指 这 一 连 串 写 操作 的 个 数 。 

全 阳 给 定 下 列 处 理 器 对 于 某 个 块 的 读 写 序列 ， 该 序列 中 的 写 运行 是 哪些 ? 长度 为 
多 少 ? 

R,,W,R,,W,,W,,R,,R,,W,,R,,W,,R,,W,,R, 
第 一 个 写 运 行 从 处 理 器 1 的 第 一 个 写 请 求 开 始 ， 到 第 二 个 处 理 器 的 写 请 求 为 止 。 这 个 序列 
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中 有 两 个 写 操 作 ， 故 其 长 度 为 2。 第 二 个 写 运 行 包括 处 理 器 2 的 单个 的 写 ， 在 处 理 器 2 的 读 请 
求 后 ， 处 理 器 3 的 读 请 求 是 这 个 序列 的 终止 。 第 三 个 写 运行 包括 两 个 处 理 器 3 的 写 ， 到 处 理 器 
4 的 写 请 求 出 现 为 止 。 本 

写 运 行 的 平均 长 度 可 以 用 来 评价 基于 无 效 策 略 和 基于 更 新 策略 的 协议 所 消耗 的 带宽 。 假 设 
BusUpgr、BusUpdate 和 BusRd 所 占 带宽 分 别 为 Base、Basunauec 和 Bana。 给 定 一 个 平均 长 度 为 
NN 的 写 运 行 ， 以 另 一 个 处 理 器 的 BusRd 为 终止 ， 基 于 无 效 策略 的 协议 ( B;,,) 和 基于 更 新 策略 
的 协议 (Ba。) 消耗 的 带宽 分 别 为 

Bi = Bootipwnae + Bhsna 


Ba = N x Bova \ 


在 Bio = Bwwwiwe 的 情况 下 ， 如 果 NN>1+ 二 ww， 则 基于 更 新 的 协议 会 消耗 更 多 带宽 。 


» 
BusUpdate 


假设 BusRd 取 回 一 个 块 需要 的 带宽 是 BusUpdate 的 B 倍 ，B 是 一 个 块 内 的 字数 。 对 于 一 个 
块 大 小 为 8 个 字 的 多 处 理 器 系统 ， 基 于 无 效 策略 的 协议 策略 和 基于 更 新 策略 的 协议 之 间 的 平衡 
点 是 N=9。 许 多 独立 的 关于 并 行 应 用 程序 的 研究 都 表明 写 运行 的 长 度 在 不 同 程序 之 间 ， 甚 至 
在 单个 程序 内 部 的 变化 都 很 大 。 在 某 些 程序 中 ， 短 的 写 运行 占 多 数 ， 有 的 则 是 长 的 写 运行 占 多 
数 。 因 此 ， 基 于 更 新 策略 的 协议 和 基于 无 效 策略 的 协议 哪个 好 ， 还 是 取决 于 具体 的 应 用 程序 。 
这 也 表明 ， 根 据 程序 的 行为 来 选择 适合 其 写 运 行 长 度 的 协议 才 是 好 的 。 

一 种 称 作 竞 争 侦 听 (competitive snooping) 的 方法 可 以 在 写 运 行 短 的 时 候选 择 基于 更 新 策 
略 的 协议 ， 而 在 写 运 行 长 的 时 候选 择 基 于 无 效 策略 的 协议 。 当 一 个 块 拷贝 存在 多 个 cache 中 
时 ,协议 默认 采用 基于 更 新 策略 的 协议 。 当 某 一 个 写 运行 的 长 度 超过 阅 值 时 ， 协 议会 转变 成 基 
于 无 效 策略 的 协议 。 我 们 将 这 个 靖 值 记 作 写 运行 长 度 (Write-Run Length，WRL) 。 为 了 触发 向 
基于 无 效 策 略 协议 的 转换 ， 每 个 cache 行 都 有 一 个 辅助 的 计数 器 。 在 把 一 个 块 装载 到 cache 中 
时 ， 该 计数 器 会 被 预 设 定 为 WRL。 每 次 对 这 个 块 产生 BusUpdate 时 ， 会 将 计数 器 减 1， 每 次 本 
地 处 理 器 访问 该 块 时 ， 将 计数 器 设 为 WRL。 当 计数 器 的 值 变 为 0 时 ，cache 控制 器 会 使 本 地 的 
备份 无 效 。 当 所 有 的 块 拷 贝 的 计数 器 都 变 为 0 时 ， 就 没有 哪个 cache 控制 器 可 以 激活 共享 线 ， 
如 图 5-13 所 示 ， 块 拷贝 的 状态 变 为 M。 当 下 一 次 块 的 状态 变 为 $ 时 ， 协 议会 将 该 块 切换 回 基于 
更 新 策略 的 模式 。 


5.4.5 多 阶段 侦 听 cache 协议 的 设计 问题 


在 图 5-7e 的 机 器 模型 中 ， 每 个 处 理 器 都 有 一 级 私有 cache， 并 通过 总 线 互 连 ， 以 便 快 速 传 
递 各 种 请 求 (BusRd、BusRdX， 以 及 BusUpgr) 和 响应 〈 侦 听 结 果 以 及 数据 块 传输 ) 。 然 而 在 
实际 系统 中 ， 每 个 处 理 器 可 能 有 分 层 的 多 级 私有 cache。 这 种 本 地 的 cache 层级 会 引发 侦 听 
cache 协议 设计 的 一 些 新 问题 。 此 外 ， 假 定 请 求 和 响应 在 总 线 上 能 够 即刻 〈 原 子 地 ) 传输 也 是 
不 现实 的 ， 因 为 总 线 会 在 整个 事务 过 程 当 中 被 占用 。 例 如 ， 一 个 总 线 读 请 求 包括 所 有 cache 侦 ， 
听 响 应 的 时 间 ， 下 式 给 出 了 总 线 被 占用 的 时 间 : 

Ti ,Tm tv 

在 整个 事务 过 程 中 ， 一 直 保持 总 线 被 占用 是 我 们 不 愿意 看 到 的 ， 因 为 这 会 大 幅 降低 总 线 的 
可 用 带宽 。 我 们 希望 将 请 求 和 响应 进行 分 离 ， 这 样 的 话 ， 当 在 等 待 内 存 或 其 他 cache 将 数据 块 
传 到 总 线 上 的 过 程 中 ， 其 他 事务 仍然 可 以 利用 总 线 。 在 本 节 中 , 我们 将 探讨 分 离 事务 总 线 
(split-transaction bus) 以 及 多 级 私有 cache 对 于 侦 听 cache 协议 设计 的 影响 。 图 5-14 给 出 了 对 
应 的 机 器 模型 。 
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' 图 5-14 拥有 多 级 私有 cache 以 及 分 离 事 务 总 线 的 多 处 理 器 模型 


在 分 离 事 务 总 线 中 , 一 个 连续 的 事务 被 分 成 一 系列 子 (分 离 的 ) 事务 。 一 种 很 自然 的 划 
分 是 将 它 分 为 请 求 阶段 和 响应 阶段 。 由 于 一 个 连续 的 事务 被 分 成 几 个 阶段 ,我 们 把 本 节 的 
cache 协议 称 作 多 阶段 侦 听 cache 协议 。 由 于 不 同 的 cache 和 内 存 模块 不 会 以 同样 的 速率 进行 请 
求 ， 我 们 在 图 5-14 中 模型 的 单元 之 间 加 入 了 FIFO 的 请 求 缓冲 ， 这 样 可 以 消除 单元 间 的 速度 差 
异 。 由 于 内 存 请 求 总 体 上 并 不 会 在 所 有 内 存 模块 之 间 均 匀 分 布 ， 因 此 在 不 同 节点 上 ， 同 一 个 内 
存 模 块 所 占据 的 FIFO 缓冲 项 个 数 可 能 会 不 同 。 同 样 ， 由 于 现代 处 理 器 允许 同时 有 多 个 处 理 中 
的 内 存 请 求 ， 因 此 不 同 cache 的 入 队 和 出 队 所 占据 的 FIFO 缓冲 项 可 能 也 不 尽 相 同 。 在 本 节 ， 我 
们 只 给 出 了 多 阶段 侦 听 cache 协议 的 大 体 行为 ， 在 第 7 章 , 我 们 将 再 建立 一 套 框架 ， 用 于 推断 
cache 一 致 性 和 存储 一 致 性 的 正确 性 。 

瞬时 ( 非 原子 的 ) cache 状态 

目前 为 止 ， 在 我 们 讨论 过 的 cache 协议 的 状态 转换 图 中 ，cache 控制 器 可 以 在 发 射 请 求 时 就 
决定 下 一 个 状态 是 什么 。 当 一 个 连续 的 事务 被 分 离 成 多 个 阶段 以 后 ， 这 种 做 法 就 不 再 成 立 了 。 
即使 是 比 图 5-14 中 的 模型 更 简单 的 、 只 有 一 级 私有 cache 和 原子 总 线 的 模型 ， 也 必须 等 到 请 求 
被 发 射 到 总 线 上 、 并 且 得 到 侦 听 结果 后 才能 决定 转向 哪个 状态 。 以 图 5-13 的 Dragon 协议 为 例 ， 
考虑 当 处 理 器 写 一 个 状态 为 0 的 拷贝 块 的 动作 。 下 一 状态 取决 于 共享 线 的 状态 ， 并 且 在 得 到 侦 
听 结 果 后 才能 做 出 决定 。 图 5-12 给 出 的 MOESI 协议 也 是 类 似 ， 处 理 器 对 一 个 状态 为 工 的 拷贝 
块 进行 读 操 作 时 的 动作 ， 需 要 根据 共享 线 的 状态 才能 决定 下 一 状态 是 了 还 是 S。 

由 于 一 个 连续 事务 不 再 是 原子 的 , 本 地 备份 块 的 状态 可 能 在 事务 发 送 的 过 程 中 发 生变 化 。 
例如 ， 考 虑 图 5-10 的 MSI 协议 ,假设 当 处 理 器 发 射 一 个 对 块 的 写 请 求 时 ， 块 的 状态 为 S$。 再 假 
设 BusUpgr 请 求 被 发 送 到 总 线 之 前 ， 一 个 远程 cache 对 同一 个 块 发 射 了 BusUpgr 请 求 。 这 个 更 
新 请 求 无 效 掉 了 本 地 备份 。 更 重要 的 是 ， 本 地 cache 发 射 的 BusUpgr 将 不 再 有 用 ， 因 为 此 时 它 
应 该 发 射 一 个 BusRdX 请 求 。 

为 了 解决 非 原子 的 多 阶段 事务 的 问题 ， 我 们 需要 瞬时 (或 非 原 子 的 ) 状态 。 之 所 以 称 它 
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们 为 瞬时 的 ， 是 因为 同 稳定 状态 如 M，S，I 相 比 ， 拷 贝 块 只 有 在 当前 事务 未 完成 时 才 会 处 在 瞬 
时 状态 。 当 事务 完成 后 ， 块 的 状态 就 转换 到 某 个 稳定 状态 。 现 在 我 们 来 考虑 如 何 处 理 瞬 时 状态 。 

在 图 5-15 中 ， 对 基本 的 MSI 协议 增加 了 两 个 瞬时 状态 SM 和 IM。 其 中 ，SM 是 指 从 S 态 转 
到 M 态 的 中 间 状 态 ，IM 是 从 工 转 到 M 的 中 间 状 态 。 如 果 块 处 在 $ 态 ， 处 理 器 发 出 写 请 求 ， 块 
的 状态 就 会 从 稳定 的 状态 $ 转 到 瞬时 状态 SM。 如 果 在 本 地 BusUpgr 请 求 发 送 之 前 ， 远 程 cache 
发 送 了 BusUpgr 请 求 ， 则 块 进 入 瞬时 状态 IM， 会 发 射 BusRdX， 同 时 去 掉 请 求 队列 中 的 BusUpgr 
请 求 。 最 后 ， 当 事务 完成 后 ， 块 状态 转换 到 状态 M。 对 于 原子 总 线 ， 当 请 求 发 射 到 总 线 上 时 ， 
就 可 以 认为 事务 已 经 完成 了 。 对 于 分 离 事务 总 线 ， 则 不 可 以 这 样 。 注 意 这 个 例子 只 是 从 方法 上 
大 体 解释 了 增加 的 瞬时 状态 ， 而 没有 对 某 个 特定 协议 的 各 种 情况 加 以 讨论 。 


PrRd/- PrWr/- 






次 1 BusUpgr/ 
ly BusRdX 
2 
、 





n 
BusUpgr 


PrRd/ 
BusRd 


BusRd/— 
BusUpgr/— 
BusRdX/— 


BusRdX/Flush 
BusUpgr/— 
BusRdX/— 


图 5-15 ”MSI 协议 中 的 瞬时 状态 


分 离 事 务 总 线 上 cache 协议 的 设计 问题 

分 离 事务 总 线 可 以 通过 将 一 个 事务 分 离 成 多 个 子 事务 来 提高 可 用 带宽 。 然 而 ， 不 幸 的 是 ， 
由 于 对 每 个 子 事务 都 要 有 总 线 仲裁 ， 这 会 增加 延迟 。 因 此 ， 在 设计 一 个 分 离 事 务 总 线 协议 的 时 
候 ， 需 要 在 延迟 和 带宽 之 间 进 行 权衡 。 

分 离 事 务 总 线 由 于 采用 流水 和 总 线 事务 重合 执行 的 方式 ， 可 以 带 来 更 高 的 带宽 。 一 个 活动 可 
以 流水 化 的 前 提 是 ， 它 可 以 被 分 成 多 个 更 小 的 工作 ， 并且 这 些小 的 工作 可 以 按照 一 个 严格 的 顺序 
执行 。 为 了 将 流水 化 用 在 连续 的 事务 中 ， 需 要 按照 图 5-16 将 事务 划分 成 请 求 阶段 和 响应 阶段 。 


请 求 仲裁 请 求 传输 请 求 确认 
时 间 


一 一 -一 一 一 一 一 一 一 一 一 一 一 一 会 
图 5-16 分 离 事 务 总 线 协 议 


在 图 5-16 的 协议 中 ， 请 求 和 响应 阶段 按时 间 分 开 了 。 在 MSI 协议 中 ， 总 线 请 求 包括 : 
BusRd、BusUpgr 和 BusRdX。 响 应 包括 : 对 于 净 失 效 从 内 存 更 新 块 ， 对 于 脏 失效 从 其 他 cache 


多 处 理 器 系统 187 





更 新 块 。 请 求 信息 中 包括 块 地 址 和 请 求 类 型 ， 响 应 信息 中 则 包含 了 块 内 容 、 地 址 或 者 其 他 一 些 
标识 ， 这 样 更 新 的 块 可 以 同 对 应 的 请 求 匹配 ， 并 且 存 放 到 cache 的 正确 位 置 上 。 由 于 请 求 和 响 
应 都 要 用 到 地 址 总 线 ， 不 可 以 并 行 处 理 ， 除 非 有 两 条 分 开 的 地 址 总 线 (一 条 供 请 求 使 用 ， 一 条 
供 响应 使 用 ) ， 但 这 样 的 设计 会 带 来 很 大 开销 。 

在 某 些 商业 机 器 中 采用 的 方法 是 ， 为 每 个 请 求 分 配 唯 一 的 标识 符 〈 例 如 请 求 号 ) 。 通 过 这 
个 标识 符 将 它 同 对 应 的 响应 联系 起 来 。 标 识 符 的 位 长 取决 于 总 线 上 最 多 有 多 少 未 完成 的 事务 ， 
通常 情况 下 ， 这 个 位 数 会 比 内 存 地 址 位 数 小 得 多 。 例 如 ， 对 于 128 个 未 完成 的 总 线 请 求 ， 只 需 
要 log,128 =7 位 标识 符 ， 而 不 需要 32 或 者 64 位 的 地 址 。 对 于 这 种 安排 ， 请 求 要 用 到 地 址 总 
线 、 请 求 类 型 总 线 以 及 标识 符 总 线 ， 而 响应 只 用 到 数据 总 线 以 及 一 个 独立 的 标识 符 总 线 。 这 
样 ‘请求 和 响应 没有 资源 共享 ， 也 就 可 以 并 行 执行 了 。 

为 了 给 分 离 事 务 总 线 设计 一 个 健壮 的 cache 协议 ， 必 须 解 决 以 下 顶层 问题 : 

。 如 何 处 理 冲突 的 请 求 ( 比如 对 同一 个 地 址 的 请 求 ) 。 

e 如 何 报告 侦 听 结果 。 

。 如 何 防 止 缓冲 区 溢出 。 

当 访 问 同一 地 址 的 请 求 冲突 中 ， 如 果 至 少 有 一 个 是 BusUpgr 或 BusRdX， 可 以 通过 瞬时 状 
态 来 解决 。 在 原子 总 线 的 情况 下 ， 当 请 求 被 发 射 到 总 线 上 时 ， 就 可 以 检测 到 冲突 。 然 而 ， 在 分 
离 事务 总 线 的 情况 下 ， 并 不 总 是 这 样 ， 这 是 因为 在 任意 时 刻 可 能 总 线 上 有 多 个 事务 挂 起 ， 处 理 
请 求 冲 突 非 常 复 淋 。 

20 世纪 90 年 代 制 造 并 应 用 的 -SGI Challenge 机 器 提出 了 一 种 方法 ， 就 是 在 每 个 节点 维护 一 
张 全 系统 的 表 ， 这 个 表 记 录 了 整个 系统 中 未 完成 的 请 求 。 在 发 射 请 求 之 前 ， 先 去 查询 请 求 表 ， 
只 有 没有 与 之 匹配 的 表 项 ， 才 能 发 送 请 求 。 在 同一 时 刻 ， 对 每 个 内 存 块 最 多 只 有 一 个 请 求 。 在 
SGI Challenge 中 ， 请 求 表 还 被 用 来 限制 未 完成 的 请 求 个 数 。 只 有 请 求 表 中 有 空 表 项 的 时 候 ， 才 能 
发 送 请 求 ， 并 且 会 分 配给 它 一 个 请 求 标识 符 ， 后续 的 响应 消息 用 它 来 和 之 前 的 请 求 联系 起 来 。 

第 二 个 问题 是 如 何 报 告 侦 听 结 果 。 由 于 侦 听 结果 是 在 同一 时 间 给 出 的 ， 入 站 缓冲 (从 总 线 
到 cache) 中 会 存在 问题 ， 因 为 所 有 cache 报告 结果 所 花费 的 时 间 ， 取 决 于 在 缓冲 区 中 拥有 表 
项 最 多 的 那个 cache。 总 线 被 占用 过 长 的 时 间 可 能 会 完全 抵消 掉 分 离 事 务 总 线 带 来 的 好 处 ， 因 
此 侦 听 结果 必须 尽早 报告 。 解 决 方法 之 一 是 ， 在 将 请 求 插入 入 站 缓冲 区 之 前 ， 就 查看 cache， 
这 种 方法 也 被 SGI Challenge 机 器 所 采用 。 这 样 一 来 ， 侦 听 结 果 的 报告 就 成 为 请 求 的 一 部 分 子 事 
务 。 接 下 来 ， 根 据 需要 ， 请 求 就 可 以 在 缓冲 区 之 间 传 播 ， 并 且 可 能 在 一 个 分 离 的 响应 阶段 将 更 
新 的 数据 块 送 到 总 线 上 。 很 明显 ， 只 有 当 同 一 时 刻 ， 对 某 个 数据 块 最 多 只 有 一 个 事务 在 处 理 
时 ， 这 种 方法 才 有 效 。 

第 三 个 问题 是 ， 如 何 处 理 缓冲 区 溢出 。FIFO 缓冲 可 能 会 装 满 ， 从 而 无 法 插入 新 的 请 求 。 
因此 ， 在 请 求 阶段 需要 查询 是 否 所 有 的 FIFO 缓冲 都 有 能 力 接收 新 的 请 求 。 要 实现 这 一 点 ,在 
请 求 子 事务 中 有 一 个 确认 阶段 ， 用 来 确认 所 有 相关 的 FIFO 缓冲 是 否 有 接收 请 求 的 空间 。 如 果 
没有 ， 就 会 返回 一 个 否定 确认 ， 重 新 尝试 请 求 ， 同 样 ， 图 5-11b 中 的 那 种 硬件 实现 可 以 应 用 到 
总 线 确认 中 。 

在 多 级 cache 层次 中 维护 cache 一 致 性 

最 后 一 个 问题 是 多 级 私有 cache 带 来 的 影响 。 正 如 图 5-14 那样 ， 每 一 级 新 的 cache 都 会 引 
和 人 一 组 人 站 /出 站 FIFO 缓冲 ， 这 样 做 的 结果 会 使 响应 请 求 的 时 间 变 长 。 

包含 关系 的 cache 设计 可 以 在 很 大 程度 上 缓解 这 一 问题 (尽管 包含 设计 并 不 是 必需 的 ) 。 
一 级 cache 和 二 级 cache 之 间 的 包含 关系 是 指 ， 如 果 一 个 数据 块 在 一 级 cache 中 ， 那 么 它 也 同时 
会 存在 于 二 级 cache 中 。 如 果 没 有 维护 包含 关系 这 一 特性 ， 侦 听 的 结果 必须 要 等 到 查询 完 一 级 
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cache 之 后 才能 得 出 。 因 此 ， 如 果 没 有 包含 ， 侦 听 结 果 的 得 出 就 会 被 延 后。 此 外 ， 所 有 的 输入 
请 求 都 会 同 处 理 器 请 求 竞 争 一 级 cache。 综 上 所 述 ， 为 了 能 尽快 得 出 侦 听 结果 ， 我 们 希望 维护 
多 级 私有 cache 之 间 的 包含 特性 。 

通常 很 难 自动 保证 cache 之 间 的 包含 关系 ， 除 了 对 于 一 级 和 二 级 cache 中 的 一 些 有 特殊 限 
制 的 cache set。 不过， 也 有 一 种 方法 可 以 用 来 维护 包含 特性 ， 当 一 个 块 从 二 级 cache 中 被 换 出 
时 ， 强 制 一 级 cache 中 的 对 应 块 也 被 换 出 。 这 种 方法 的 缺点 就 是 每 次 二 级 cache 中 的 块 被 换 出 
时 ， 都 要 访问 一 级 cache， 这 样 做 可 能 会 影响 处 理 器 。 另 一 个 问题 与 同一 级 cache 写 命中 时 采取 
的 策略 相关 。 如 果 是 写 回 策略 ， 则 一 级 cache 和 二 级 cache 中 的 内 容 就 不 一 致 。 这 表明 如 果 一 
个 块 被 修改 过 ， 而 其 他 cache 访问 它 时 ， 必 须 由 一 级 cache 进行 响应 。 对 于 级 联 的 FIFO 缓冲 ， 
对 于 脏 失效 的 响应 延迟 将 显著 变 大 。 通 过 维护 cache 间 的 包含 关系 ， 并 且 在 一 级 cache 中 采用 
写 直 达 策 略 ， 两 级 cache 中 的 数据 块 可 以 保持 一 致 性 ， 并 且 二 级 cache 可 以 响应 所 有 的 脏 失效 
请 求 ， 从 而 显著 降低 响应 延迟 。 


5.4.6 通信 事件 的 分 类 


设计 内 存 系统 的 主要 目标 是 降低 处 理 器 读 写 的 平均 延迟 以 及 消耗 的 带宽 。 为 了 对 cache 协 
议 的 延迟 和 带宽 效率 有 更 直观 的 感受 ， 我 们 ” 表 5-3 三 台 处 理 器 对 内 存 块 A、B、C、D 的 访问 





首先 来 看 MSI 协议 。 表 5-3 给 出 了 一 个 例子 ， 序列 示例 
这 个 例子 中 ， 三 台 处 理 器 对 包含 A、B、C 的 
块 Bl 以 及 包含 D 的 块 B2 进行 访问 。 表 中 给 EL 


出 了 每 台 处 理 器 在 每 个 时 间 片 中 的 访问 情况 。 
前 3 次 访问 都 会 产生 读 失 效 ， 并 将 块 Bl 读 到 
自己 的 cache 中 。 这 些 cache 失效 都 是 冷 失 Ro( 换 出 块 B1) 
效 ， 也 就 是 说 都 是 处 理 器 第 一 次 访问 数据 块 。 
第 三 台 处 理 器 进行 了 第 四 次 访问 ， 这 次 访问 
B2 并 将 包含 A、B、C 的 块 Bl 从 cache 中 换 
出 。B1 被 换 出 可 能 是 由 于 映射 地 址 冲突 或 者 
cache 容量 限制 。 第 三 台 处 理 器 接 下 来 对 Bl 
的 访问 可 能 由 于 地 址 映射 冲突 而 产生 冲突 失效 ， 也 可 能 由 于 cache 容量 有 限 而 产生 容量 失效 。 
冲突 和 容量 失效 都 被 归 到 替换 失效 这 一 类 中 ， 如 果 cache 容量 无 限 ， 则 可 以 避免 替换 失效 。 

接 下 来 ,在 第 5 步 ， 第 一 个 处 理 器 修改 了 A， 这 会 产生 BusUpgr 请 求 ， 并 且 使 处 理 器 2 
cache 中 的 Bl 块 无 效 。 处 理 器 2 接 下 来 对 A 的 访问 产生 了 读 失 效 。 这 是 由 于 一 致 性 带 来 的 失 
效 ， 称 为 一 致 性 失效 。 一 致 性 失效 扩展 了 第 4 章 介 绍 的 3C 失效 模型 ( 冷 失 效 ， 容 量 失 效 ， 冲 
突 失 效 ) ， 加 入 了 第 4 个 C (一 致 性 失效 )， 构成 了 4C cache 失效 模型 。 

第 二 台 处 理 器 的 一 致 性 失效 后 ， 在 第 7 步 ， 处理 器 1 紧 接 着 对 Bl 中 的 B 又 进行 了 修改 ，、 
接 下 来 ， 处 理 器 2 再 次 访问 A， 又 会 带 来 新 的 一 致 性 失效 。 然 后 第 3 个 处 理 器 访问 同一 块 中 的 
C， 并 且 失 效 。 这 种 失效 不 能 称 为 一 致 性 失效 ， 因 为 数据 块 在 第 4 步 就 由 于 容量 不 足 或 地 址 冲 
突 被 换 出 。 更 确切 地 说 ， 我 们 将 它 归 为 替换 失效 。 

仔细 观察 序列 中 的 两 次 一 致 性 失效 ， 可 以 发 现 一 些 有 趣 的 东西 。 第 6 步 出 现 的 第 一 个 一 致 
性 失效 是 由 于 第 一 个 处 理 器 修改 的 字 (位 于 地 址 A) 同 第 二 个 处 理 器 访问 的 是 同一 个 字 。 不 同 
的 是 , 第 8 步 中 第 二 个 一 致 性 失效 是 由 于 第 一 个 处 理 器 修改 的 字 (位 于 地 址 B) 同 第 二 个 处 理 
器 访问 的 字 (位 于 地 址 A) 和 不同。 第 二 个 失效 可 以 忽略 ， 这 不 会 引起 程序 错误 。 这 种 情况 下 之 
所 以 会 产生 失效 ， 是 因为 字 A 和 B 位 于 同一 个 块 中 ， 而 cache 一 致 性 维护 的 粒度 就 是 块 ， 这 种 
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情况 下 的 处 理 器 之 间 并 没有 交换 数据 。 我 们 称 第 一 个 失效 为 真 共享 失效 ， 而 第 二 个 失效 为 伪 共 
享 失效 。 真 共享 失效 会 将 程序 正确 执行 所 需 的 数 表 5-4 导致 真 共享 失效 的 访问 序列 示例 
据 读 人 cache， 也 就 是 说 存在 数据 的 通信 。 

考虑 另 一 个 例子 ( 表 5-4)。 这 个 例子 并 不 
是 我 们 通过 直觉 就 可 以 判断 的 ， 因 为 引起 失效 时 
的 操作 所 访问 的 数据 (B) 不 同 于 被 修改 过 的 数 
据 〈A)。 但 是 这 种 情况 也 应 该 被 归 人 真 共享 失 
效 ， 因 为 这 次 失效 会 将 A 的 值 引 入 cache， 并 且 
第 二 个 处 理 器 接 下 来 就 会 使 用 A。 总 的 来 说 ， 如 
果 一 次 失效 将 新 的 数据 取 到 cache 中 ， 并 且 在 该 
数据 块 驻 留 在 cache 内 时 被 访问 了 ， 我 们 就 将 这 
次 失效 认为 是 真 共 享 失效 。 

同 冷 失 效 和 替换 失效 类 似 ， 真 共享 失效 是 为 
了 让 程序 正确 执行 ， 将 新 的 数据 读 取 到 cache 
中 。 如 果 忽 略 这 个 失效 ， 处 理 器 就 会 访问 到 旧 
值 ， 这 类 失效 叫 作 必要 失效 ,这 同 伪 共享 失效 不 
同 。 伪 共享 失效 并 不 会 将 处 理 器 访问 的 新 值 取 到 
cache。 我 们 可 以 忽略 伪 共 享 失效 ， 而 不 会 影响 
程序 的 正确 性 。 因 此 , 我 们 将 这 些 失 效 称 为 非 必 
要 失效 。 另 一 种 非 必要 失效 会 出 现在 采取 写 分 配 
策略 的 cache 中 。 假 设 对 字 A 的 写 操作 会 将 A 所 
在 的 整个 数据 块 读 人 cache， 如 果 该 块 在 cache 中 
的 整个 生存 时 间 内 只 有 字 A 被 访问 ; .这 个 失效 就 
被 认为 是 非 必要 失效 ， 因 为 处 理 器 间 并 没有 发 生 
数据 通信 。 

通过 逐个 检查 所 有 内 存 请 求 的 trace 记录 ， 就 
有 可 能 计算 出 不 同 种 类 失效 的 个 数 。 在 图 5-17 中 ， 
通过 流 图 给 出 了 一 种 将 失效 分 为 4 类 【〈 冷 失效 ， 图 5-17 共享 内 存 多 处 理 器 中 cache 失效 的 分 类 
替换 失效 ， 真 共享 失效 ， 伪 共享 失效 ) 的 方法 。 表 5-5 失效 分 类 示例 

这 种 分 类 算法 需要 记录 每 个 处 理 器 对 数据 块 
的 第 一 次 访问 ， 从 而 记录 冷 失效 的 个 数 。 为 了 区 
别 蔡 换 失效 和 一 致 性 失效 ， 程 序 还 必须 记录 块 换 
出 的 原因 一 一 被 替换 还 是 被 无 效 。 

在 某 些 情 况 下 ; 失效 的 分 类 是 很 难 界定 的 ， 
比如 下 面 的 例子 。 

电 E 渴 I 中 考虑 表 5-5 中 对 同一 数据 块 的 处 理 器 读 写 序列 ， 分 别 给 出 冷 失效 、 替 换 失 效 、 真 
共享 失效 和 伪 共 享 失效 的 个 数 。 

很 明显 ， 处 理 器 1 的 第 一 次 读 请 求 会 导致 冷 失效 ， 因 为 该 块 之 前 从 未 被 处 理 器 1 访问 过 。 
对 于 处 理 器 2 和 处 理 器 3 的 后 续 访 问 ， 将 它们 归 为 冷 失效 还 是 一 致 性 失效 〈 真 共享 或 伪 共 享 失 
效 ) 就 不 是 那么 明确 了 。 作 为 处 理 器 2 和 处 理 器 3 的 第 一 次 访问 ， 这 两 个 失效 应 该 被 归 为 冷 失 
效 。 但 是 ， 另 一 方面 ， 处 理 器 1 对 块 的 写 请 求 都 会 在 总 线 上 发 送 无 效 请 求 ， 而 不 管 处 理 器 2 或 
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处 理 器 3 是 否 访问 过 该 块 。 在 图 5-17 描述 的 分 类 算法 中 , 冷 失 效 优先 于 一 致 性 失效 ， 因 此 本 
例 中 的 3 次 失效 都 被 归 为 冷 失 效 。 | 

为 了 区 别 真 共享 失效 和 伪 共 享 失效 ， 在 块 驻 留 于 cache 期 间 ， 分 类 算法 必须 跟踪 块 中 被 访 
问 的 字 。 一 个 块 处 在 cache 中 的 时 间 被 称 为 块 在 cache 中 的 生存 期 (lifetime) 。 当 出 现 以 下 3 种 
事件 之 一 时 ， 生 存 期 会 被 终结 : 替换 ; 无 效 ; 程序 终止 。 

下 面 给 出 真 共享 失效 和 伪 共 享 失效 的 定义 。 

定义 5.3 ( 真 共享 失效 ) 真 共享 失效 会 将 之 前 由 于 被 无 效 掉 而 换 出 的 数据 块 重 新 取 回 
cache， 并 且 ， 在 数据 块 于 cache 的 生存 期 内 ， 即 使 某 个 字 被 其 他 处 理 器 修改 了 ， 仍 然 可 以 继续 
对 其 访问 。 \ 

定义 5.4 ( 伪 共 享 失 效 ) ”人 伪 共 享 失效 也 会 将 之 前 由 于 被 无 效 掉 而 换 出 的 数据 块 重新 取 回 
cache， 并 且 ， 在 数据 块 在 cache 的 生存 期 内 ， 如 果菜 个 字 被 其 他 处 理 器 修改 了 ， 那 么 就 不 会 继 
续 对 其 访问 。 

很 重要 的 一 点 是 ， 如 果 每 个 数据 块 只 包含 一 个 字 ， 那么 伪 共 享 失效 就 可 以 完全 避免 了 。 这 
样 的 话 ， 一 致 性 失效 当 且 仅 当 某 个 被 访问 的 字 被 其 他 处 理 器 修改 过 时 才 会 出 现 。 实 际 上 ， 伪 共 
享 失效 的 次 数 整体 上 随 着 cache 块 大 小 的 增加 而 增多 。 另 一 方面 ， 更 大 的 块 可 以 提供 更 好 的 空 
间 局 部 性 ， 有 利于 降低 冷 失 效 、 蔡 换 失效 和 真 共享 失效 。 伪 共享 失效 是 非 必要 失效 的 一 个 实 
例 ， 下 面 给 出 必要 失效 和 非 必要 失效 的 定义 。 

定义 5.5 (必要 失效 ) 必要 失效 会 取 回 一 个 数据 块 到 cache 中 ， 并 且 在 这 个 数据 块 在 
cache 的 生存 期 内 ， 至 少 有 一 个 包含 新 值 的 字 被 访问 过 ， 这 类 失效 成 为 必要 失效 ， 而 其 他 所 有 
失效 都 是 非 必 要 失效 。 

就 像 cache 失效 可 以 被 分 为 必要 失效 和 非 必要 失效 一 样 ， 内 存 传 输 也 可 以 被 分 为 必要 传输 
和 非 必 要 传输 。 在 基于 无 效 策 略 的 协议 中 ， 如 果 数 据 块 大 小 是 一 个 字 ， 那 么 不 管 其 地 址 和 请 求 
类 型 是 什么 ， 总 线 传输 的 都 是 有 效 传输 。 而 随 着 块 大 小 的 增 大 ， 一 个 块 在 其 生存 期 内 ， 越 来 越 
多 的 字 不 会 被 访问 ， 这 就 会 导致 非 必要 内 存 传输 。 ; 

定义 5.6 (必要 传输 ) 一 次 传输 被 称 为 是 必要 的 ， 当 且 仅 当 这 次 传输 将 一 个 新 值 送 给 菜 
个 特定 cache， 并 且 在 其 生存 期 内 ， 会 被 同 这 个 cache 相连 的 处 理 器 访问 。 

对 于 基于 无 效 策略 的 协议 ， 非 必要 传输 只 包含 那些 没有 新 值 的 字 ， 上 比如， 它们 在 块 的 生存 
期 内 都 没有 被 访问 。 对 于 基于 更 新 策略 的 协议 ， 非 必要 传输 包括 所 有 通过 更 新 操作 向 远程 
cache 传播 、 但 是 又 没有 被 远程 处 理 器 所 访问 的 数据 字 。 


5.4.7 TLB 一 致 性 


cache 一 致 性 的 作用 是 能 够 保证 处 理 器 在 访问 每 个 单独 的 内 存 位 置 时 ， 都 好 像 只 有 一 个 内 
存 拷贝 似 的 。 作 为 软 硬 件 接口 暴露 出 来 的 存储 模型 确保 了 每 个 内 存单 元 值 的 一 致 性 ， 不 过 ， 光 
靠 内 存 是 无 法 覆盖 并 行程 序 正 确 执 行 所 需 的 全 部 状态 的 。 例 如 ， 对 于 寄存 器 中 的 变量 值 来 说 , 
解决 cache 一 致 性 的 方法 无 法 保证 所 有 的 处 理 器 都 以 一 致 的 方式 访问 它们 。 因 此 ， 就 需要 依靠 
编译 器 或 者 应 用 程序 开发 人 员 ， 来 保证 寄存 器 中 的 变量 只 能 被 某 个 处 理 器 的 线程 访问 到 。 操 作 
系统 设计 者 必须 保证 ， 与 系统 正确 提供 服务 相关 的 全 部 关键 状态 都 是 一 致 的 ， 而 虚拟 存储 管理 
就 是 操作 系统 提供 的 关键 服务 之 一 。 

在 虚拟 存储 系统 中 ， 整 个 虚 地 址 空间 被 划分 为 固定 大 小 的 虚 页 。 无 论 是 串 行程 序 还 是 并 行 
程序 ， 都 要 访问 虚 地 址 空间 。 某 些 被 访问 的 页 在 物理 内 存 中 ,但 是 其 他 页 只 在 硬盘 中 有 备份 。 
访问 不 在 内 存 中 的 页 会 引起 缺 页 异常 。 在 处 理 器 真正 能 访问 该 页 之 前 ， 操 作 系 统 的 服务 程序 会 
将 页 调 人 物理 内 存 。 这 就 需要 对 每 次 内 存 访问 都 做 检查 ， 判 断 访问 的 页 已 经 在 内 存 中 还 是 需要 


多 处 理 器 系统 191 





从 硬盘 调度 进来 。 对 每 一 次 访 存 ， 都 要 进行 虚实 地 址 转换 ， 这 是 通过 页 表 实 现 的 ， 页 表 包 含 了 
每 个 页 的 虚实 地 址 等 信息 。 因 此 每 次 读 写 内 存 都 需要 查询 页 表 ， 如果 没有 相关 硬件 的 协助 ， 采 
用 虚拟 内 存 带 来 的 性 能 开销 将 非常 大 。 

为 了 加 速 地 址 转换 和 虚拟 内 存 访问 的 确认 过 程 ， 引 入 了 旁 路 转换 缓冲 (TLB) 这 一 关键 硬 
件 。TLB 中 缓存 了 最 常 被 访问 页 的 整个 页 表 (PTE)。PTE 中 包含 了 虚 页 到 物理 页 的 映射 、 访 
问 权限 、 访 问 历史 ， 以 及 是 否 在 内 存 中 被 修改 过 等 信息 ， 下 图 给 出 了 表 项 的 内 容 : 


、 上 岂 页 号 及 位 


对 于 采用 物理 地 址 索引 的 cache，TLB 位 于 处 理 器 和 一 级 cache 之 间 。 它 将 每 个 地 址 的 最 高 几 位 
一 一 虚 页 号 ， 转 换 到 指向 物理 内 存 中 的 物理 页 号 。 为 了 帮助 缺 页 处 理 程序 选择 替换 页 ， 有 时 会 
增加 一 些 引 用 位 ， 并且 在 每 次 访问 该 页 时 进行 更 新 。 此 外 ， 如 果 页 被 修改 过 ,就 会 将 脏 位 置 
位 ， 从 而 保证 页 被 换 出 时 写 回 硬盘 。 

TLB 的 作用 相当 于 对 页 地 址 转换 的 cache。 如 果 某 一 项 不 在 TLB 中 ， 而 在 PTE 中 ， 就 会 产 
生 TLB 故障 (fault) 或 TLB 失效 ,将 失效 的 PTE 表 项 取 到 TLB 中 。 如 果 页 表 中 没有 对 应 虚 页 
的 物理 地 址 ， 即 发 生 了 缺 页 ( page fault) ， 就 会 将 缺失 的 页 从 硬盘 取 到 内 存 中 。 如 果 发 生 访问 
权限 冲突 ， 也 会 产生 TLB 故障 ， 例 如 ， 某 个 进程 企图 对 一 个 只 读 页 进行 写 操作 。 在 多 处 理 器 系 
统 中 ， 每 个 处 理 器 都 有 自己 的 TLB， 作 为 页 地 址 转换 的 私有 cache。 类 似 私 有 数据 cache 存在 
cache 一 致 性 的 问题 ，TLB 也 面临 着 一 致 性 问题 ， 称 为 TLB 一 致 性 问题 (TLB consistency prob- 
lem) 。 在 本 节 ， 我 们 主要 讨论 商用 机 中 对 这 个 问题 的 处 理 办 法 。 

当 PTE 在 某 个 TLB 中 的 备份 同 内 存 中 的 PTE 不 同时 ， 就 会 出 现 TLB 不 一 致 的 情况 。 首 
先 ， 将 虚 页 映射 到 物理 页 时 ， 如 果 虚 存 管 理 将 某 页 换 出 ， 并 且 将 另 一 个 页 放 到 物理 页 中 ， 
此 时 就 可 能 发 生 不 一 致 。 因 为 此 时 ， 旧 的 TLB 会 将 刚 从 内 存 换 出 的 虚 页 继续 映射 到 已 经 更 
新 内 容 的 物理 页 上 。 此 外 该 物理 页 中 所 有 缓存 的 数据 块 也 都 过 时 了 ， 因 为 它们 保存 的 仍然 
是 旧 的 虚 页 位 置 。 为 了 维护 一 致 性 ，TLB 中 的 所 有 过 时 项 都 需要 被 移出 ， 此 外 所 有 缓存 了 被 
换 出 页 的 备份 块 也 要 被 无 效 掉 。 其 次 ， 在 某 些 情况 下 ， 多 个 TLB 项 中 页 访问 权限 位 的 不 一 
臻 也 会 导致 错误 。 比 如 ， 某 个 页 的 访问 权限 初始 时 对 所 有 处 理 器 都 是 可 读 可 写 的 ， 后 来 ， 
权限 变 为 了 只 读 ， 这 一 变化 必须 在 PTE 的 所 有 TLB 备份 中 都 体现 出 来 ， 和 否则 有 的 处 理 器 就 
可 能 违反 权限 。 如 果 对 某 个 页 的 访问 权限 从 只 读 变 为 读 写 ， 并 且 这 一 变化 并 没有 在 所 有 的 
TLB 中 反映 出 来 ， 那 么 这 种 权限 的 放宽 就 没有 真正 起 到 作用 ， 并 且 会 产生 不 必要 的 越权 访问 
异常 。 再 次 ， 不 同 拷贝 的 访问 历史 信息 (引用 位 ) 之 间 的 不 一 致 不 会 引起 正确 性 问题 ， 但 
在 虚 存 管理 选择 换 出 页 时 可 能 会 产生 次 优 的 选择 。 最 后 ， 被 修改 过 的 页 必须 正确 记录 ， 这 
也 是 为 什么 正确 设置 脏 位 非常 重要 。 

要 想 保证 操作 行为 的 正确 性 ， 必 须 确保 TLB 中 PTE 的 某 些 关键 信息 (例如 地 址 转换 、 权 
限 降 低 或 脏 位 ) 的 一 致 ， 而 其 他 PTE 信息 (权限 放宽 或 访问 历史 位 ) 的 不 一 致 只 会 对 性 能 产 
生 影 响 ， 因 此 这 类 一 致 性 的 保证 并 不 是 必需 的 。 

我 们 现在 介绍 一 种 解决 TLB 一 致 性 问题 的 方法 ， 这 种 方法 中 ，TLB 是 由 软件 处 理 程序 管 
理 ， 并 且 cache 是 按 物理 地 址 寻 址 的 。 我 们 通过 下 面 的 典型 情景 进行 讲解 : 一 个 处 理 器 对 不 在 
内 存 中 的 某 页 进行 访问 ， 缺 页 异常 会 触发 虚 存 管理 (软件 ) 进行 处 理 ， 然 后 某 个 处 理 器 会 执 
行 虚 存 管理 代码 ， 选 择 当前 在 物理 内 存 中 的 一 个 页 进行 换 出 ,为 了 避免 TLB 中 出 现 旧 的 PET 
项 以 及 cache 中 出 现 旧 的 备份 块 ， 这 一 操作 需要 通知 所 有 相关 的 TLB 和 cache。 幸 运 的 是 ， 由 
于 TLB 是 通过 软件 管理 ， 这 样 可 以 在 内 存 中 记录 所 有 包含 该 转换 的 TLB 项 备份 以 及 所 有 包含 
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该 虚 页 的 cache 块 。 页 面 映射 的 改动 必须 通知 到 这 些 TLB 项 和 cache 块 ， 这 一 通知 过 程 通常 由 
一 个 称 为 TLB shootdown 的 过 程 来 执行 。 

在 TLB shootdown 中 ， 执 行 虚 存 管理 代码 并 且 负 责 完 成 地 址 映射 变换 的 处 理 器 首先 锁定 
PITE， 然 后 有 针对 性 地 向 所 有 相关 处 理 器 发 送 中 断 信 号 。 当 接收 到 中 断 信号 时 ， 每 个 处 理 器 都 
会 调用 一 个 软件 处 理 程序 来 将 本 TLB 中 的 旧 PTE 项 清除 (通过 一 个 简单 的 无 效 化 操作 ) ， 并 且 
还 会 无 效 掉 本 地 cache 中 属于 这 个 物理 页 的 所 有 数据 块 拷贝 。 和 这 次 shootdown 操作 相关 的 所 有 
处 理 器 都 会 对 发 起 shootdown 操作 的 处 理 器 进行 应 答 。 一 旦 所 有 旧 的 虚实 映射 关系 被 清除 ，TLB 
之 间 就 一 致 了 ， 此 后 释放 对 PTE 的 锁定 。 由 于 对 所 有 影响 正确 性 的 页 表 变 换 都 需要 执行 类 似 的 
操作 序列 ， 因 此 这 种 方法 很 明显 降低 性 能 。 尽 管 TLB shootdown 操作 在 实际 系统 中 很 少 出 现 ， 
但 是 我 们 依然 有 必要 通过 适当 的 硬件 支持 来 降低 这 一 开销 。 


5.5 可 扩展 共享 内 存 系统 


对 于 总 线 系 统 来 说 ， 一 个 很 大 的 局 限 就 是 它 只 能 连接 数量 较 少 的 cache 和 处 理 器 。 总 线 的 
带宽 受 限 于 连 线 数量 与 时 钟 频 率 的 乘积 。 当 节点 数目 增多 时 ， 总 线 带 宽 会 降低 ， 因 为 连 线 的 长 
度 以 及 传输 量 随 着 节点 数目 增多 而 增长 。 在 本 节 中 ， 我们 考虑 如 何 将 共享 内 存 的 地 址 空间 扩展 
到 更 多 节点 。 理 想 情 况 下 ， 随 着 节点 数目 增多 ， 内 春 带 宽 也 应 按 比例 增加 ， 并 且 内 存 延 迟 保持 
不 变 。 

图 5-7 中 的 多 处 理 器 组 织 方式 无 法 扩展 到 大 规模 节点 ， 原 因 至少 有 两 个 : 第 一 ， 总 线 无 法 
适应 大 量 节 点 。 实 际 上 ， 它 只 能 适应 很 少数 量 的 节点 ; 第 二 ， 图 5-7 中 的 dance-hall 组 织 方式 
(处 理 器 在 互连网 络 的 一 侧 ， 存 储 模块 在 另 一 侧 ) 有 一 个 特点 ， 就 是 任意 处 理 器 访问 任意 存储 
块 的 访问 延迟 几乎 相同 。 然 而 ， 当 节点 数 增多 时 ， 由 于 互连网 络 的 延迟 增加 ， 所 有 的 访 存 延 迟 
都 将 增加 。 

相 比 来 说 ， 图 5-18 中 的 组 织 方式 很 明显 具有 更 好 的 可 扩展 性 。 第 一 ， 它 用 通用 互连网 络 
替代 了 总 线 ， 这 个 网 络 所 能 提供 的 带宽 可 以 随 着 节点 增多 而 线性 增长 ,并且 访问 延迟 随 节 点 增 
多 呈 亚 线性 增加 。 第 二 ， 内 存 分 布 到 各 个 节点 中 ， 这 样 做 的 依据 是 访 存 局 部 性 一 一 数据 通常 主 
要 由 单个 处 理 器 进行 访问 ， 将 这 些 数据 放 在 离 处 理 器 近 的 存储 中 可 以 显著 降低 访问 延迟 。 显 
然 ， 当 多 个 程序 在 多 处 理 器 上 并 发 执行 时 ， 程 序 代码 以 及 进程 /线程 的 种 有 数据 都 有 很 好 的 局 
部 性 。 这 一 结构 对 并 行程 序 作 了 扩展 ， 它 对 共享 数据 结构 进行 了 划分 以 便 更 好 地 开发 局 部 性 ， 
因此 ， 将 存储 资源 分 布 到 不 同 的 节点 上 也 就 是 顺理成章 的 了 。 


通用 ( 可 扩展 ) 互连网 络 





图 5-18 cache 一 致 性 非 均匀 存储 访问 架构 (cc-NUMA) 


这 种 模型 对 片上 多 处 理 器 也 同样 适用 ， 在 片上 处 理 器 中 ,最 高 的 几 级 片上 存储 一 般 都 是 处 
理 器 的 私有 cache， 而 片上 的 最 后 一 级 cache (1last- level cache) ， 则 通常 是 共享 的 二 级 或 三 级 
cache。 在 这 种 情况 下 ， 从 可 扩展 性 的 角度 来 看 ， 可 以 将 共享 cache 分 成 多 个 bank， 并 将 这 些 共 
享 的 cache bank 分 配 到 各 个 节点 上 ， 从 而 控 气 存储 的 局 部 性 。 在 这 种 非 均 匀 cache 访问 
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(NUCA ) 结 构 中 ,访问 本 地 的 共享 cache bank 会 比 访问 远程 的 Cache bank 要 快 。 

这 种 将 存储 模块 或 共享 cache bank 分 配 到 各 处 理 器 节点 的 内 存 组 织 方 式 ， 称 作 cache 一 致 
性 非 均匀 存储 访问 架构 ' (cc-NUMA)。 在 这 种 结构 中 ,访问 处 理 器 本 地 存储 块 (或 共享 cache 
bank) 和 访问 远程 处 理 器 的 存储 块 (或 共享 cache bank) 的 延迟 不 同 ， 而 且 通 常 访问 本 地 的 延 
迟 更 短 。 另 外 ， 正 如 之 前 所 讲 的 ， 维 护 所 有 节点 私有 cache 的 一 致 性 是 非常 有 必要 的 ， 因 此 cc- 
NUMA 系统 也 是 .cache 一 致 的 。 

侦 听 cache 协议 需要 进行 改造 才能 适用 于 ce-NUMA 多 处 理 模型 。 在 侦 听 协议 中 ， 在 所 有 事 
务 操 作 中 都 需要 所 有 节点 的 参与 ， 这 一 点 不 具有 可 扩展 性 。 因 此 在 ce-NUMA 系统 中 ， 常 常 通 
过 目录 协议 来 维护 cache 一 致 性 。 


5.5. 1 目录 协议 的 基本 概念 和 术语 


假设 在 包含 100 个 节点 的 cc-NUMA 多 处 理 器 系统 中 ， 数 据 块 的 备份 只 保存 在 2 个 节点 中 。 
如 果 采 用 侦 听 cache 协议 ， 那 么 一 个 BusUpgr 请 求 需 要 发 送 给 100 个 节点 ， 而 实际 上 相关 的 节 
点 只 有 1 个， 因此 这 会 造成 带宽 的 极 大 浪费 。 一 种 更 好 的 解决 办 法 是 将 一 致 性 事务 直接 发 送 给 
相关 的 节点 ， 在 本 例 中 这 种 相关 节点 只 有 一 个 。 

在 ce-NUMA 多 处 理 器 中 ,数据 和 代码 以 页 为 单位 分 布 在 不 同 的 存储 模块 中 。 在 将 虚 地 址 
转换 为 物理 地 址 后 ， 通 过 物理 地 址 来 确定 一 个 读 请 求 真 正 应 该 发 送 到 哪个 存储 模块 。 假 设 一 级 
cache 是 物理 寻 址 的 ， 那么 这 个 地 址 转换 过 程 应 发 生 在 访问 一 级 cache 之 前 。 这 个 转换 过 程 很 简 
单 ， 如 果 有 2" 个 存储 模块 或 节点 ;那么 只 需要 将 n 位 一 一 通常 是 物理 地 址 的 高 位， 作为 存 
放 页 的 存储 模块 或 节点 的 编号 进行 索引 即 可 。 

ce-NUMA 中 常用 的 一 种 具有 较 好 可 扩展 性 的 协议 是 目录 协议 (directory protocal) ， 之 所 以 
这 样 命名 ， 是 因为 这 种 协议 以 内 存 块 为 粒度 来 维护 一 个 目录 。 每 个 内 存 块 对 应 的 目录 项 指向 包 
含 该 数据 块 拷贝 的 所 有 节点 〈 可 能 有 多 个 ) ， 并 且 记 录 了 数据 块 在 各 节点 中 的 状态 。 

cache 目录 协议 的 设计 空间 很 大 ， 大 体 上 可 以 分 为 两 类 : 以 内 存 为 中 心 的 和 以 cache 为 中 心 
的 。 在 以 内 存 为 中 心 的 目录 协议 中 , 每 个 存储 模块 都 有 一 个 关联 的 目录 ， 它 记录 了 本 存储 模块 
内 每 个 内 存 块 在 节点 间 的 共享 信息 。 男 一 方面 ， 在 以 cache 为 中 心 的 目录 协议 中 ,通过 cache 
项 来 维护 目录 信息 ，cache 项 记录 了 节点 间 共 享 块 的 信息 。 下 面 我 们 首先 介绍 以 内 存 为 中 心 的 
目录 协议 ， 重 点 分 析 实 现 和 性 能 两 方面 可 能 的 问题 ， 并 探讨 其 他 解决 方法 。 

在 以 内 存 为 中 心 的 目录 协议 中 ， 当 一 个 节点 发 送 BusRd 或 BusUpgr 请 求 ， 这 个 请 求 会 被 发 
送 到 存储 该 数据 块 的 存储 模块 中 。 在 将 虚 地 址 转换 为 物理 地 址 后 ， 通 过 该 块 物理 地 址 的 某 几 位 
来 决定 选择 哪个 存储 模块 。 以 BusRd 请 求 为 例 ， 请 求 块 的 目录 项 会 指出 内 存 中 的 备份 块 是 否 是 
最 新 的 ， 并 且 可 以 返回 给 发 送 请 求 的 处 理 器 〈 净 cache 失效 ) ,或 者 是 出 现 脏 cache 失效 时 ， 这 
就 需要 将 请 求 再 前 递 给 某 个 节点 。 同 样 BasUpgr 或 BusRdX 请 求 也 要 先 根 据 物 理 地 址 发 送 到 某 
个 存储 模块 。 目 录 项 指出 了 含有 备份 块 的 节点 ,需要 向 这 些 节 点 发 送 使 之 无 效 的 请 求 。 综 上 所 
述 , 一 个 一 致 性 事务 中 可 能 含有 3 种 节点 ; 初始 化 事务 的 节点 ,保存 目录 信息 的 节点 以 及 含有 
特定 数据 块 的 节点 。 在 本 章 ， 我们 将 初始 化 请 求 的 节点 记 为 本 地 (local, 上 上) 节点， 将 保存 目 
录 信 息 的 节点 记 为 主 (home; H) 节点 ;将 其 他 所 有 参与 事务 的 节点 记 为 远程 (remote, R) 
节点 。 注 意 ， 主 节点 可 以 同 本 地 节点 或 任何 一 个 远程 节点 是 同一 个 物理 节点 ,但 本 地 节点 和 远 
程 节点 一 般 是 不 同 的 物理 节点 。 


5.5.2 目录 协议 实现 方法 
基准 的 目录 协议 一 般 被 称 为 存在 标志 向 量 协议 (presence-flag vector protocol)。 
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基准 目录 协议 所 需 的 硬件 结构 

存在 标志 向 量 记录 了 包含 某 个 内 存 块 备份 的 节点 集合 。 图 5-19 .给 出 了 结构 示意 图 ,并 且 
放大 了 存储 模块 目录 的 具体 组 织 形式 。 目 录 中 对 每 个 内 存 块 都 有 一 个 对 应 的 表 项 ， 每 个 表 项 包 
括 一 个 存在 标志 向 量 (PFV) 以 及 一 个 脏 位 “(D)。 对 于 有 个 节点 的 系统 中 ，PFV 的 长 度 为 
位 。 比 如 ,0 号 抉 的 PEV 是 0110…01， 表明 第 二 个 、 第 三 个 以 及 最 后 一 个 节点 有 这 个 块 的 备 
份 。 脏 位 为 0 表明 内 存 中 的 块 备份 是 新 的 。 对 于 1 号 块 ， 只 有 第 二 个 节点 包含 它 的 备份 ， 并 且 
根据 脏 位 为 工 可 以 知道 ，cache 中 的 备份 块 是 系统 中 唯一 更 新 了 的 块 备份 。 最 后 一 个 块 的 PFV 
表示 所 有 节点 都 有 这 个 块 的 备份 ， 并 且 由 于 脏 位 为 0， 这 些 备份 同 内 存 中 的 备份 都 是 一 致 的 ， 
` 也 就 是 说 ， 这 个 内 存 块 是 干净 的 。 \ 





图 5-19 存在 标志 向 量 (PFV) 目录 协议 的 硬件 结构 


现在 ,我 们 来 讨论 存在 标志 向 量 协 议 的 实现 。 为 了 简单 ， 从 基于 无 效 策略 的 MSI 协议 中 来 
探讨 实现 方法 ， 当 然 ， 实 际 上 也 可 以 使 用 基于 更 新 策略 的 协议 或 MOESI 协议 族 中 的 任何 一 个 
协议 来 实现 。 

在 MSI 协 议 中 ， 私 有 cache 中 的 每 个 备份 块 可 能 有 3 种 状态 : 被 修改 过 的 (M)， 共享 
(S) 的 ,无 效 的 (IT) 。 内 存 中 的 备份 块 有 两 种 状态 : 干净 的 或 脏 的 。 现 在 我 们 再 回顾 一 下 
BusRd，BusUpgr 和 BusRdX 操作 所 需 的 事务 ， 图 5-20 列 出 了 这 些 事务 。 

基准 目录 协议 的 行为 特征 

我 们 从 在 本 地 节点 〈L) 的 私有 -cache 读 失 效 开 始 ， 需 要 考虑 两 种 情况 。 第 一 种 情况 ， 内 
存 的 备份 块 是 干净 的 。BusRd 请 求 首先 被 发 送 给 主 节点 (HH) ， 如 图 5-20a ( 子 事务 1) 所 示 。 
由 于 该 块 的 目录 项 中 脏 位 为 0， 主 节点 会 以 刷新 操作 进行 响应 ( 子 事务 2)， 同 时 更 新 目录 项 ， 
从 而 反映 本 地 节点 有 一 个 块 的 备份 。 、 

如 果 内 存 块 是 脏 的 ， 主 节点 会 将 该 读 请 求 通过 一 个 远程 读 请 求 (remote- read request， 
RemRd) 事务 前 递 给 远程 节点 (R)， 通 过 目录 项 可 以 识别 出 远程 节点 ( 子 事务 2)， 如 图 5-20b 
所 示 。 当 收 到 读 请 求 后， 远程 节 点 会 将 更 新 的 块 返回 给 主 节点 ( 子 事务 3)。 主 节点 收 到 备份 
块 后 ， 将 更 新 内 存 块 以 及 目录 信息 ， 包 括 清 0 脏 位 ， 以 反映 本 地 节点 现在 有 一 个 该 块 的 备份 。 
最 后 ,将 备份 块 发 送 给 本 地 节点 ( 子 事务 4)。 

当 对 处 在 共享 状态 的 块 发 送 写 请 求 时 ， 可 能 会 出 现 两 种 情况 : 内 存 中 的 备份 是 唯一 的 备份 
块 ; 或 者 多 个 cache 中 包含 此 块 。 第 一 种 情况 ， 如 图 5-20c 所 示 ， 会 向 主 节 点 发 送 BusUpgr 请 
求 。 主 节点 会 更 新 目录 信息 ， 以 反映 内 存 中 的 备份 块 是 脏 的 。 然 后 内 存 会 向 请 求 节 点 返回 一 个 
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2: RemRd 





1:BusRd Flush 1:BusRd 


| | 
Dd 


a ) BusRd 净 失效 b ) BusRd 脏 失效 


2c:InvRg 






2:UpgrAck 
1:BusUpgr 


1:BusUpgr 





c ) 主 节点 只 有 一 个 备份 的 BusUpgr d ) 有 多 个 备份 的 BusUpgr 
图 5-20 存在 标志 向 量 协议 的 一 致 性 事务 


确认 , 如 图 5-20d 中 UpgrAck 所 示 ， 这 个 确认 表明 事务 完成 。 

如 果 其 他 cache 中 也 有 备份 块 时 ， 主 节点 必须 对 所 有 包含 该 块 且 状态 为 共享 的 cache 发 送 
无 效 请 求 ， 图 5-20c 给 出 了 这 一 过 程 。 可 以 通过 PFV 找到 包含 这 些 拷 贝 的 节点 ,假设 及 个 节 
点 都 有 这 个 块 的 备份 ， 则 无 效 化 请 求 (InvRq) 将 发 送 给 R1 ~RN， 我 们 用 2a、2b 和 2c 来 表示 
这 些 子 事务 ， 以 表明 它们 可 以 并 行 发 出 的 。 当 收 到 无 效 化 请 求 后 ，R1 ~ RN 节点 向 主 节点 发 回 
确认 ( 子 事务 3a、3b、3c)。 当主 节 点 收 到 所 有 确认 后 ， 将 会 更 新 目录 信息 ,表明 只 有 本 地 节 
点 有 唯一 的 备份 ， 并 且 内 存 备份 块 状态 变 为 脏 。 最 后 ， 主 节点 通过 向 本 地 节点 发 送 UpgrAck 响 
应 ,表明 本 次 更 新 事务 完成 。 

BisRdX 请 求 产 生 的 动作 同 BusUpgr 请 求 大 致 相同 。 唯 一 不 同 的 地 方 在 于 ， 在 无 效 化 远程 
节点 的 备份 之 前 ， 如 果 内 存 中 的 备份 块 是 干净 的 ， 则 需要 向 本 地 节点 发 送 这 个 块 。 如 果 内 存 备 
份 是 脏 的 ， 就 需要 持 有 最 新 备份 的 远程 节点 通过 主 节点 将 最 新 的 备份 块 传 给 本 地 节点 。 同 
BusRd 请 求 一 样 ，BusUpgr 和 BusRdX 请 求 可 能 会 0 次 、2 次 或 4 次 跨越 互连网 络 。 如 果 本 地 节 
点 同 主 节点 是 一 个 节点 ;并 且 唯 一 的 备份 块 在 内 存 中 ， 就 不 需要 跨越 互连网 络 。 极 端 情况 下 ， 
如 果 本 地 节点 、 主 节点 和 远程 节点 是 3 个 不 同 的 节点 ， 就 会 4 次 跨越 互连网 络 。 

为 了 维护 节点 间 对 内 存 块 共享 情况 的 准确 信息 ,- 当 某 个 块 备份 从 某 个 节点 中 被 蔡 换 出 时 ， 
也 必须 通知 主 节点 。 如 果 块 是 脏 的 ,那么 写 回 的 时 候 自然 就 通知 了 主 节 点 。 但 是 ， 对 共享 块 的 
替换 可 能 不 会 通知 主 节点 。 这 种 情况 下 ， 存 在 标志 就 会 不 明确 ， 并 且 存 在 标志 向 量 指向 的 节点 
可 能 是 实际 拥有 备份 块 的 节点 的 超 集 。 这 种 做 法 不 会 带 来 正确 性 的 问题 ， 唯 一 的 问题 是 可 能 会 
由 于 无 用 的 无 效 化 请 求 而 浪费 带宽 。 归 结 起 来 ， 是 更 新 存在 标志 ， 还 是 发 送 无 用 的 无 效 化 请 
求 ， 这 需要 根据 两 者 的 开销 和 复杂 性 进行 权衡 后 决定 。 
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设计 cache 目录 协议 的 一 个 最 具 挑 战 性 的 问题 是 ， 如 何 解决 针对 同一 个 内 存 块 的 多 个 请 求 
的 竞争 条 件 。PFV 协议 理解 起 来 很 简单 ， 但 是 在 多 个 请 求 同 时 传输 时 ， 如 何 保 证 产生 正确 的 行 
为 是 很 有 挑战 性 的 。 对 于 分 离 事务 总 线 ， 为 了 降低 协议 的 复杂 性 ， 会 阻塞 所 有 未 完成 的 请 求 ， 
而 在 同一 时 间 只 执行 对 某 个 块 的 一 个 请 求 。 为 了 完成 这 项 工作 ， 需 要 在 每 个 节点 存放 一 个 未 完 
成 请 求 表 的 备份 ， 并 且 通 过 总 线 维护 所 有 表 的 一 致 性 。 显 然 ， 这 种 解决 方法 并 不 是 我 们 所 希望 
的 ， 因 为 采用 目录 协议 就 是 为 了 避免 广播 

cc-NUMA 的 一 个 重要 特点 是 每 个 内 存 块 的 主 节点 是 对 该 内 存 块 所 有 访问 的 中 央 仲 裁 者 。 
目录 控制 器 可 以 通过 增加 一 个 状态 位 来 串 行 化 对 内 存 块 的 访问 事务 ， 这 个 状态 位 称 为 忙 位 
(busy bit) 或 锁定 位 〈lock bit) 。 每 个 内 存 块 都 有 这 个 位 用 以 表明 正在 处 理 对 该 块 的 某 个 事 
务 。 当 忙 位 被 置 位 时 ， 如 果 主 节点 收 到 其 他 对 该 块 的 请 求 ， 就 会 将 其 先 阻 塞 。 目 录 控 制 器 对 于 
某 个 块 有 两 种 阻塞 请 求 的 方法 : (1) 将 到 来 的 请 求 排队 ; (2) 只 要 忙 位 被 置 位 就 拒绝 到 来 的 
请 求 。 对 第 一 种 方法 ， 需 要 请 求 缓冲 队列 的 支持 ”对 第 二 种 方法 ， 需 要 向 本 地 节点 返回 一 个 否 
定 应 答 消息 ， 让 节点 稍 后 再 尝试 请 求 。 将 到 达 的 请 求 排队 的 好 处 是 ， 可 以 将 延迟 控制 到 最 小 ， 
因为 避免 产生 响应 消息 以 及 重新 尝试 请 求 的 消息 可 以 节省 带宽 。 但 是 ， 这 种 方法 也 有 缺点， 就 
是 需要 通过 硬件 来 管理 一 个 可 能 会 溢出 的 请 求 缓冲 区 。 如 果 发 送 缓冲 区 溢出 ， 可 以 通过 向 请 求 
方 发 送 否 定 应 答 (nack) 消息 来 处 理 。 

不 管 采用 什么 解决 方法 ， 一 个 共同 的 问题 是 : 什么 时 候 可 以 关闭 忙 位 ， 也 就 是 说 ， 什 么 时 
候 一 个 事务 才 算 真正 完成 ? 图 5-20 给 出 的 事务 流 图 中 ， 隐 含 假设 了 在 主 节点 响应 本 地 节点 之 
前 可 以 关闭 忙 位 。 但 是 ， 从 下 面 的 例子 可 以 看 出 ， 这 一 做 法 可 能 为 时 过 早 。 

假设 本 地 节点 对 主 节点 中 的 一 个 干净 块 发 送 了 BusUpgr 请 求 。 如 图 5-20c 所 示 ， 
主 节点 更 新 目录 ， 将 脏 位 置 位 。 然 后 在 用 UpgrAck 响应 本 地 节点 之 前 复位 忙 位 。 现 在 假设 ,在 
忙 位 清 0 后 ， 主 节点 马上 就 收 到 了 对 同一 个 块 的 :BusRd 请 求 。 根 据 图 5-20b 的 事务 流 中 向 本 地 
节点 发 送 RemRd 请 求 ， 主 节点 会 将 新 的 请 求 发 送 给 本 地 节点 。 如 果 RemRd 请 求 先 于 UpgrAck 
响应 到 达 本 地 节点 ， 根 据 图 5-20c， 本 地 节点 将 无 法 处 理 RemRd 请 求 。 那 么 应 该 如 何 处 理 这 种 
情况 呢 ? 

问题 出 在 RemRd 请 求 先 于 UpgrAck 响应 达到 本 地 节点 。 如 果 两 个 节点 间 的 子 事务 可 以 通 
过 不 同 的 路 径 传输 ， 就 可 能 出 现 这 种 情况 。 如 果 两 个 节点 之 间 只 有 一 条 路 径 ，RemRd 就 会 在 
本 地 节点 收 到 UpgrAck 之 后 被 接收 。 考 虑 到 无 法 保证 这 种 顺序 性 ，cache 目录 协议 必须 有 能 力 
处 理 这 种 竞争 条 件 。 一 种 可 能 的 解决 方案 是 ， 让 本 地 节点 向 主 节点 发 送 一 个 否定 应 答 。 最 终 ， 
如 图 5-20b， 本 地 节点 会 收 到 UpgrAck 响应 ， 然 后 处 理 RemRd 请 求 。 4 

降低 基准 目录 协议 中 的 延迟 

尽管 cache 目录 协议 在 维护 一 致 性 方面 ， 相 比 侦 听 cache 协议 可 以 显著 降低 带宽 , 但 这 是 


以 增加 cache 失效 和 更 新 时 的 延迟 为 代价 的 ， 因 为 请 求 都 必须 先 发 送 给 主 节点 。 基 准 目录 协议 ， 


为 了 执行 一 个 BusRd、BasUpgr 或 BusRdX 请 求 最 多 会 产生 4 次 互连网 络 的 跨越 。 我 们 现在 来 讨 
论 一 种 应 用 于 斯 坦 福 的 DASH 系统 的 替代 方案 ，DASH 系统 是 斯 坦 福 大 学 在 20 世纪 90 年 代 初 
设计 的 二 个 非常 有 影响 力 的 研究 原型 机 ， 它 可 以 降低 事务 的 延迟 。 

图 5-21 给 出 了 这 个 替代 方案 中 BusRd 和 BusUpgr 的 事务 流 ， 将 4 跳 事务 变 为 了 3 跳 事务 。 
BusRd 事务 给 出 了 当 内 存 块 备份 是 脏 时 的 事务 流 。 当 收 到 本 地 节点 的 BusRd 请 求 后 ， 主 节点 开 
启 忙 位 , 并 通过 一 个 RemRd 请 求 将 这 个 请 求 发 送 给 远程 节点 ， 这 几 步 同 图 5-20 中 基准 协议 是 
一 样 的 。 当 收 到 RemRd 请 求 后 远程 节点 会 做 两 件 事 : 将 块 传送 给 本 地 节点 〈 子 事务 3a) ， 同 
时 并 行 地 向 主 节点 返回 一 个 确认 〈RemAck) 消息 〈 子 事务 3b) ， 以 通知 主 节点 事务 已 经 成 功 
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完成 。 收 到 确认 消息 后 ， 主 节点 更 新 目录 项 并 且 关 闭 忙 位 。 





a ) BusRd 事 务 b ) BusUpgr 事 务 
图 5-21 替代 方案 中 三 跳 目录 协议 的 事务 流 


同 基准 协议 一 样 ， 图 5-21b 中 的 BusUpgr 事务 由 本 地 节点 发 起 ,将 BusUpgr 请 求 发 送 给 主 
节点 。 主 节点 接 下 来 发 出 使 无 效 化 的 请 求 ， 这 也 和 基准 协议 一 样 。 但 是 ， 与 基准 协议 不 同 的 
是 ， 主 节点 也 会 返回 给 本 地 节点 一 个 响应 消息 (UpgrAck) ， 这 个 消息 中 包括 备份 块 节点 数目 的 
信息 。 本 地 节点 可 以 利用 这 个 计数 值 对 接 下 来 从 远程 节点 传 来 的 确认 消息 进行 计数 。 这 个 消息 
很 重要 ， 为 了 在 最 坏 情 况 下 将 网 络 跨越 的 步 数 从 4 步 降 低 到 3. 步 ， 远 程 节点 会 将 确认 消息 发 送 
给 本 地 节点 而 不 是 主 节 点 。 当 本 地 节点 收 到 了 所 有 的 确认 后 ，BusUpgr 事务 就 完成 了 。 整个 事 
务 的 最 后 一 步 是 ， 本 地 节点 更 新 自己 的 cache,, 并 且 通 过 发 送 更 新 完成 消息 ( UpgrCompl) ,通知 
主 节点 事务 已 经 完成 。 当 收 到 这 个 消息 后 ， 主 节点 会 更 新 该 块 的 目录 项 并 且 关 闭 忙 位 。 


5. 5.3 目录 协议 的 扩展 性 


基准 目录 协议 的 存储 需求 

基于 存在 标志 向 量 的 cache 目录 协议 ， 有 一 个 缺点 一 一 它 需 要 大 量 存储 来 保存 目录 项 。 假 
设 每 个 节点 的 内 存 含有 以 个 块 ， 每 个 块 的 大 小 是 8， 多 处 理 器 含有 入 个 节点 ， 存 在 标志 向 量 需 
要 的 存储 大 小 (除去 脏 位 ) 为 : 

directory = Mx WN 

因此 ， 目 录 的 大 小 与 节点 数 旦 平方 成 正比 。 

一 个 基于 存在 标志 向 量 的 cache 目录 协议 需要 维护 一 个 包含 128 个 节点 的 多 处 理 
器 一 致 性 。 块 大 小 为 16 字 节 。 那 么 ,为 了 实现 目录 需要 占用 的 存储 比例 为 多 少 ? 忽略 脏 位 。 

实现 目录 和 需要 占用 的 存储 比例 是 每 个 节点 的 块 数 ( 以 ) 、 块 大 小 (8) 和 节点 (N) 的 函 
数 ， 下 面 给 出 它们 的 关系 : \ 


directory 二 MxN 2 
memory + directory MxNxB+MxN B+N 


在 本 例 中 ,实现 目录 所 占 的 存储 比例 为 128/ (128 +128) =0.5。 表 明 50% 的 内 存 要 用 来 存储 
目录 项 。 也 就 是 说 ,保存 目录 所 用 的 内 存 空 间 同 保存 数据 所 用 的 空间 一 样 大 ! 

很 明显 ， 基 准 目录 协议 并 不 具有 良好 的 扩展 性 。 即 使 对 那些 节点 数 适 中 的 系统 也 是 如 此 ， 
这 种 做 法 的 内 存 开销 太 大 了 。 当 然 ， 我 们 可 以 通过 增加 抉 大 小 来 降低 内 存 开销 ， 当 块 的 大 小 为 
64 字 节 时 (这 是 比较 合理 的 大 小 ) ， 开 销 会 降低 到 12.5% 。 但 是 为 了 获得 可 接受 的 更 低 开销 ， 
有 必要 去 开发 一 些 其 他 的 目录 实现 方法 。 所 

其 他 具有 更 低 内 存 开 销 的 目录 实现 方法 

可 以 通过 两 种 方法 来 降低 存储 目录 的 内 存 空间 : 每 个 节点 的 状态 位 小 于 工 位 ， 或 者 每 个 节 
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点 内 的 目录 项 个 数 小 于 数据 块 数 。 第 一 种 做 法 的 理由 在 于 ， 在 所 有 节点 中 ， 只 有 一 小 部 分 节点 
会 共享 某 个 内 存 块 。 第 二 种 做 法 的 理由 在 于 ; -cache 中 只 会 保存 所 有 内 存 块 的 一 小 部 分 。 我 们 
接 下 来 具体 分 析 一 下 这 两 种 做 法 = 

一 种 方法 是 通过 一 组 指针 来 代替 存在 标志 向 量 ， 这 种 方法 被 称 为 有 限 指 针 有 目录 协议 。 有 
限 指针 目录 协议 给 每 个 内 存 块 分 配 羡 个 指针 ， 每 个 指针 指向 一 个 节点 。 在 含有 N 个 节点 的 系 
统 中 ， 每 个 指针 需要 log, N 位 。 当 共享 一 个 内 存 块 的 节点 个 数 不 超 过 i 时 ,可 以 记录 下 共享 
该 内 存 块 的 准确 节点 个 数 。 有 限 指针 目录 协议 在 指针 数目 为 1 的 情况 下 内 存 开销 为 (忽略 
脏 位 ) : 

directory M x N x logN logN 
memory + directory MxNxB+MxNxlogN ”加 这 logN 
同 存在 标志 向 量 协议 相 比 ， 含 有 一 个 指针 的 有 限 指针 目录 协议 的 内 存 开销 同 节点 数 成 对 数 关系 
增长 ， 而 不 再 是 线性 增长 。 然 而 ， 有 限 指 针 目 录 协 议 的 一 个 重要 问题 是 ， 如 何 处 理 共 享 节点 数 
超过 有 限 的 指针 数目 ， 换 句 话 说， 如 何 处 理 指针 溢出 。 

对 于 指针 溢出 的 一 种 解决 办 法 是 ， 当 自 录 指针 用 尽 时 ， 采取 广播 的 方法 。 这 种 做 法 被 记 为 
Dir,B，B 表示 广播 , 过 是 指针 的 个 数 。 例 如 ， 对 于 DirB 协议 ， 当 第 5 个 节点 发 生 cache 失效 
时 ,该 项 的 广播 位 被 置 位 ， 表 示 下 一 次 发 生 对 该 块 的 写 时 ,会 向 所 有 节点 发 送 使 无 效 化 请 求 。 
另 一 种 解决 办 法 是 ， 在 大 规模 系统 中 通过 指针 替换 来 避免 广播 。 当 目录 项 有 4: 个 指针 可 用 时 ， 
如 果 有 第 5 个 节点 访问 该 块 时 ， 选 择 当 前 指针 指向 的 某 个 节点 作为 替换 物 。 这 个 替换 节点 的 备 
份 会 被 无 效 化 ， 这 样 就 可 以 为 新 的 节点 分 出 一 个 指针 。 

MIT 的 Alewife 多 处 理 器 系统 采用 了 一 种 与 上 面 方法 截然 不 同 的 指针 溢出 处 理 方法 ,硬件 
提供 了 有 限 个 指针 ， 而 指针 溢出 的 问题 则 交 给 软件 处 理 。 这 种 方法 称 为 Dir, SW。 当 “硬件 ” 
指针 被 用 完 时 ， 会 触发 一 个 软件 处 理 程序 的 陷阱 ， 然 后 处 理 程序 在 常规 〈 非 刁 录 ) 内 存 中 给 
新 指针 分 配 位 置 。 这 种 模式 不 仅 在 硬件 指针 不 够 用 而 有 新 的 节点 需要 拷贝 块 时 依赖 于 软件 程 
序 ， 并 且 当 某 个 块 被 修改 后 ， 软 件 已 分 配 过 一 些 指 针 ， 都 需要 依靠 软件 来 处 理 。 通 常情 况 下 ， 
如 果 共 享 块 的 节点 数 少 于 硬件 指针 数 时 ， 有 限 指 针 模 式 是 非常 高 效 的 。 

存在 标志 向 量 和 有 限 指针 两 种 模式 都 是 为 了 维护 节点 中 块 拷贝 的 准确 信息 。 另 二 种 降低 内 
存 请 求 的 替代 方法 是 将 节点 分 组 成 集群 或 区 域 。 例 如 ， 一 个 128 个 节点 的 多 处 理 器 系统 按照 每 
个 集群 含有 4 个 节点 分 组 ， 则 存在 标志 向 量 需 要 记录 32 个 集群 的 存在 信息 ,而 不 再 是 128 个 
节点 的 信息 ， 这 就 使 得 目录 对 内 存 的 需求 减少 到 1/4 ， 这 种 模式 也 被 称 为 粗 向 量 目 录 协 议 。 

我 们 也 可 以 设计 一 种 混合 模式 ， 初 始 时 像 有 限 指针 模式 一 样 ， 当 硬件 指针 消耗 完 后 ， 实 现 
指针 的 那些 位 的 语义 将 改变 为 对 粗 向 量 目录 的 编码 。 例 如 ， 在 一 个 拥有 128 个 节点 的 多 处 理 器 
系统 中 有 4 个 硬件 指针 ， 每 个 指针 需要 log, 128 =7 位 ，4 个 指针 就 需要 28 位 。 在 32 位 的 目录 
项 中 ， 每 个 目录 项 可 以 编码 32 位 的 存在 标志 ， 每 一 位 对 应 一 个 包含 4 个 节点 的 集群 。 

到 目前 为 止 , 减少 目录 大 小 的 方法 还 仅 限 于 减少 每 个 目录 项 的 位 数 。 但 是 ， 目 录 项 的 个 数 ， 
其 实 也 是 可 以 降低 的 。 这 类 降低 目录 对 内 存 需求 的 方法 基于 以 下 观察 结果 : 在 任何 时 刻 ， 
cache 中 保存 的 块 的 个 数 远 小 于 内 存 中 的 所 有 抉 数 ， 这 也 就 是 说 ， 大 多 数目 录 项 是 没有 被 用 到 
的 。 这 也 是 目录 cache 技术 的 理论 依据 。 在 目录 cache 中 ， 当 某 个 新 节点 需要 某 个 块 时 ,; 才 会 
分 配 目录 项 。 当 目录 cache 中 某 项 被 替换 时 , 整个 系统 中 的 这 个 换 出 块 都 会 被 无 效 。 如 果 内 存 
中 的 块 数 是 cache 行 数 的 1000 倍 ， 相 比 于 存在 基准 标志 向 量 协议 而 言 ， 所 需要 的 内 存 就 会 降低 
3 个 数量 级 ! 这 样 做 的 缺点 就 是 ， 有 时 会 发 生 目录 cache 的 失效 。 

以 cache 为 中 心 的 目录 协议 

将 目录 分 布 在 cache 而 不 是 内 存 中 ,这 样 目 录 项 的 数目 自然 就 是 cache 行 数 而 不 是 整个 内 
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存 中 的 块 数 。 以 cache 为 中 心 的 目录 协议 的 一 个 典型 例子 就 是 可 扩展 一 致 性 接口 (Scalabe Co- 
herent Interface，SCI) ， 这 也 是 正 EE 1596-1992 标准 。 

图 522 给 出 了 SCI 的 目录 组 织 形 式 。 在 SCI 中， 共享 同一 内 存 块 的 节点 对 应 的 cache 目录 
通过 双向 链表 连接 起 来 。 正 如 图 5-22 所 示 ， 每 个 内 存 块 有 一 个 节点 指针 ， 指 向 一 个 拥有 该 块 
备份 的 cache。 每 个 cache 目录 项 有 两 个 节点 指针 ， 尾 指针 指向 链表 中 下 一 个 cache， 头 指针 指 
向 链表 中 前 一 个 cache， 或 者 如 果 当 前 节点 是 链表 中 的 第 一 个 节点 ， 则 指向 内 存 块 。 有 人 提出 
使 用 单 链表 来 连接 ， 虽 然 也 可 以 ， 但 是 双向 链表 可 以 简化 某 些 事务 ， 比 如 块 蔡 换 等 ， 我 们 接 下 
来 会 进行 讲解 。 





图 5-22 可 扩展 一 致 性 接口 (SCI》 目录 组 织 


我 们 依次 来 回顾 一 下 协议 事务 中 BusRd、BusUpgr 和 替换 请 求 这 几 个 事务 。BusRd 事务 是 
从 一 个 节点 向 主 节点 发 送 BusRd 请 求 开始 的 ; 会 出 现 两 种 情况 。 如 果 没 有 cache 有 该 块 的 备 
份 ， 主 节点 就 会 通过 两 跳 事 务 将 块 传 给 本 地 节点 ， 并 且 通 过 将 尾 指 针 指 向 本 地 节点 来 将 本 地 节 
点 加 入 链 中 。 如 果 其 他 cache 有 备份 块 ， 就 会 将 新 共享 节点 插入 主 节点 和 旧 的 头 节点 之 间 。 主 
节点 首先 会 向 旧 的 头 节点 发 送 请 求 ， 使 其 头 指针 指向 链 中 的 新 节点 一 新 的 头 节 点 。 它 同时 将 
头 节 点 的 标识 传 给 新 的 头 节点 。 然 后 新 的 头 节点 将 它 的 尾 指针 指向 旧 的 头 节点 。 

BusRdX 或 者 BusUpgr 请 求 的 动作 是 以 将 请 求 节点 插 人 链表 头 部 开始 的 。 如 果 请 求 节 点 没 
有 块 备份 ( BusRdX 的 情况 )，BusRd 事务 首先 会 将 请 求 节点 插 到 链表 头 部 。 接 下 来 ， 请 求 节点 
会 向 它 的 后 继 节点 发 送 使 无 效 请 求 ， 后 继 节 点 又 会 将 此 请 求 向 后 传 。 这 个 动作 会 一 直 递 归 地 执 
行 ， 直 到 链 中 其 他 节点 的 相应 块 都 被 无 效 了 。 当 无 效 化 请 求 传播 到 链表 中 的 最 后 一 个 节点 时 ， 
最 后 一 个 节点 通过 内 存 向 头 节点 发 送 一 个 确认 消息 ， 以 表明 写 操作 已 经 完成 。 另 一 方面 ， 如 果 
请 求 节点 有 块 的 备份 ( BusUpgr 的 情况 ) 并 且 节 点 处 在 链表 中 间 ， 那么 它 必 须 先 移动 到 链表 头 
部 。 为 了 完成 移动 ， 要 将 节点 从 链表 中 摘除 ， 然 后 再 插入 链表 头 部 。 将 节点 从 中 间 移 到 头 部 需 
要 采取 同 移出 抉 一 样 的 步 又。 \ 

当 cache X 中 的 某 个 块 备份 在 链表 中 间 ， 并 且 这 个 块 要 被 移出 时 ， 双 向 链表 按照 如 下 方法 
更 新 : cache X 发 送 一 个 包含 被 移出 块 尾 指针 的 消息 给 它 的 头 指针 指向 节点 ， 这 样 这 个 节点 就 
可 以 直接 连 到 X 尾 指 针 指 向 的 节点 。 同 样 cache X 向 它 的 是 指针 指向 节点 发 送 一 个 它 的 头 指 
针 ， 这 样 尾 指针 指向 的 节点 就 可 以 指向 X 的 头 指针 指向 节点 了 。 

现在 我 们 比较 一 下 SCI 和 PFV 协议 在 延迟 、 带 宽 和 内 存 占用 方面 的 表现 。 对 于 BusRd 事 
务 ，SCI 和 存在 标志 向 量 协议 的 延迟 不 分 上 下 ， 因 为 ,在 净 失 效 的 情况 下 两 种 情况 都 需要 一 个 
两 跳 事务 来 提供 数据 。 对 于 总 线 更 新 事务 ，SCI 的 延迟 与 共享 块 的 节点 个 数 成 正比 关系 ， 因 为 
使 无 效 化 请 求 串 行 地 遍历 共享 链表 。 这 与 存在 标志 向 量 协议 不 同 ， 在 PFV 中 ， 使 无 效 请 求 
是 并 行 发 出 的 。 由 于 含有 备份 块 的 节点 数量 一 样 ，SCI 和 存在 标志 向 量 协议 在 维护 一 致 性 时 
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消耗 的 带宽 是 相同 的 。 因 此 ， 在 两 种 协议 中 ，BusUpgr 事务 消耗 的 带宽 都 是 与 含有 备份 块 的 
节点 的 个 数 成 正比 的 。SCI 和 PFV 在 内 存 占用 方面 不 同 ,， 在 SCIL 中 ,每 个 内 存 抉 有 两 个 指 
针 ， 每 个 ,cache 块 有 两 个 节点 指针 ， 而 存在 标志 向 量 中 每 个 内 存 块 需要 WN 位 来 保存 向 量 。 这 
表明 ，SCI 的 内 存 开销 是 同 cache 行 数 成 正比 的 ， 而 不 是 同 内 存 块 数 成 正比 ， 这 样 就 可 以 节 
省 很 多 空间 。 


5.5.4 层次 化 系统 


从 单 处 理 器 节点 的 平坦 组 织 结构 出 发 ， 设 计 一 个 包括 多 个 处 理 器 的 节点 的 可 扩展 系统 ， 是 
现在 设计 中 比较 常用 的 方法 ， 图 5-23 给 出 了 这 种 方式 。 这 种 多 处 理 器 系统 由 一 组 集群 节点 构 
成 ， 每 个 集群 包括 多 个 处 理 器 ， 每 个 处 理 器 有 自己 的 私有 cache 层次 (图 中 未 画 出 来 ) 并 通过 
集群 内 互连网 络 连 接 起 来 。 互 连 网 络 将 处 理 器 同 网 络 接口 (N. 工 ) 以 及 本 地 存储 连接 起 来 ， 
这 些 本 地 存储 可 能 是 全 局 共享 内 存 (如 果 是 cc- NUMA 系统 ) 的 一 部 分 或 者 是 共享 的 集群 
cache。 而 不 同 的 集群 则 是 通过 集群 间 互 连 网 络 连 接 起 来 。 


集群 间 互 连 





5-23 ”两 级 多 处 理 器 系统 组 织 方式 


很 多 商用 机 都 采用 了 类 似 的 层次 化 存储 组 织 形式 。20 世纪 90 年 代 非 常 成 功 的 大 型 系统 
SGI Origin 2000 就 是 由 多 节点 构成 的 ,每 个 节点 包括 两 个 处 理 器 。Sun 微 系统 公司 的 WideFire 
原型 机 由 4 个 E6000 节点 (每 个 含有 30 个 处 理 器 ) 连接 成 为 一 个 具有 100 多 个 处 理 器 的 系统 。 
目前 片上 多 处 理 器 的 集成 密度 已 经 非常 高 , :这 也 使 得 将 来 可 能 会 进一步 提高 大 家 对 层次 化 系统 
的 研究 热情 。 随 着 包含 数 十 个 处 理 器 的 片上 多 处 理 器 成 为 现实 ,只 用 一 小 部 分 这 些 芯 片 就 可 以 
组 成 包含 几 百 个 处 理 器 的 低 开销 多 处 理 器 系统 。 

根据 集群 的 数量 以 及 集群 间 的 互连网 络 类 型 ， 我 们 可 以 选择 通过 侦 听 cache 协议 或 者 cache 
目录 协议 来 维护 集群 间 的 caehe 一 致 性 。 在 节点 内 部 也 是 类 似 ， 我 们 可 以 根据 节点 内 互连网 络 
的 类 型 来 选择 侦 听 协议 或 者 目录 协议 。 在 介绍 完 这 些 协议 的 具体 细节 之 后 ;现在 需要 考虑 的 一 
个 现实 问题 是 ;如 何 将 这 两 种 协议 《一 种 用 来 维护 集群 间 的 一 致 性 ;一 种 用 来 维护 集群 内 部 的 
一 致 性 ) 结合 起 来 维护 整个 系统 所 有 处 理 器 的 cache 一 致 性 。 我 们 给 出 3 种 可 选 的 方案 : 集群 
间 和 集群 内 部 都 采用 侦 听 协议 ; 和 集群 内 采用 侦 听 协议 ， 集 群 间 采 用 目录 协议 ; 集群 内 采用 目录 . 
协议 。 

集群 内 部 和 集群 间 都 采用 侦 听 协议 

首先 来 考虑 集群 内 部 和 集群 间 都 通过 侦 听 来 维护 一 致 性 的 情况 。BusRd 或 者 BusRdX 请 求 
都 必须 传送 给 系统 中 的 所 有 处 理 器 。 首 先 ， 请 求 被 发 送 到 本 地 集群 的 内 部 互连网 络 上 。 如 果 本 
地 集群 就 可 以 满足 这 个 请 求 ， 那 么 事务 就 可 以 完成 ; 如果 本 地 集群 无 法 满足 该 请 求 ， 事 务 就 会 
被 发 送 到 集群 间 互 连 网 络 ， 传 送 到 其 他 所 有 集群 。 接 下 来 ， 整 个 系统 的 所 有 私有 cache 都 需要 
侦 听 这 个 请 求 。 但 是 ,为 了 节省 集群 内 部 宝贵 的 带宽 ,可 能 会 增加 一 个 很 大 的 集群 cache 并 且 
集成 到 网 络 接口 上 。 对 于 片上 多 处 理 器 的 集群 cache 的 选择 ， 经 常会 选择 二 级 或 者 三 级 cache。 
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如 果 保 证 了 集群 cache 和 集群 内 部 私有 cache 之 间 的 包含 关系 ， 那 么 集群 cache 会 过 滤 掉 大 部 分 
对 本 集群 的 请 求 。 

集群 内 采用 侦 听 协议 ， 集 群 间 采 用 目录 协议 

在 这 种 情况 下 ， 集 群 间 的 目录 协议 会 将 每 个 集群 看 作 一 个 单独 的 节点 。 集 群 间 的 目录 协议 
会 保存 集群 对 于 每 个 独立 的 内 存 块 的 共享 情况 。 正 如 之 前 讲解 的 那样 ，BusRd 以 及 BusRd 请 求 
会 被 发 送 到 主 节点 的 存储 模块 ， 而 主 节 点 的 存储 模块 保存 了 涉及 该 事务 的 集群 。 当 一 个 集群 收 
到 了 BusRd 或 者 使 无 效 化 请 求 ， 它 会 将 这 个 请 求 发 送 到 集群 内 部 的 互连网 络 ， 根 据 节 点 采取 的 
侦 听 cache 协议 ， 每 个 私有 cache 都 会 侦 听 本 地 互连网 络 。 

集群 内 采用 目录 协议 

最 后 ,考虑 用 目录 协议 来 维护 集群 内 部 一 致 性 的 情况 。 首 先 ， 一 个 集群 的 目录 中 只 包含 集 
群 中 缓存 的 内 存 块 对 应 的 目录 项 ， 这 样 既 节省 了 空间 也 保证 了 正确 性 。 如 果 集群 有 共享 的 最 后 
一 级 cache， 则 这 个 cache 中 就 会 记录 本 地 私有 cache 中 缓存 的 内 存 备份 块 。 实 际 上 ， 这 是 一 个 
很 常用 的 选择 。Sun 微 系统 公司 的 Tl SPARC 片上 多 处 理 器 (代号 Niagara) 就 采用 了 这 种 方 
法 。 如 果 每 个 集群 都 采用 这 种 机 制 ， 就 可 以 将 每 个 集群 的 本 地 cache 协议 同 集群 间 级 别 的 侦 听 
协议 或 目录 协议 结合 起 来 。 在 采用 目录 协议 的 情况 下 ， 集 群 间 的 目录 会 将 事务 发 送 给 包含 请 求 
块 的 集群 。 在 采用 侦 听 协议 的 情况 下 ， 所 有 的 集群 都 进行 侦 听 ， 与 当前 事务 无 关 的 集群 就 会 通 
过 集群 cache 来 过 滤 掉 这 个 事务 。 

层次 化 系统 可 以 减少 目录 协议 的 存储 开销 ,我 们 通过 下 面 的 例子 进行 说 明 。 

CGE 假设 某 个 系统 包含 128 个 节点 ， 内 存 块 大 小 为 16 字 节 ， 采用 基于 目录 的 协议 来 
维护 私有 cache 一 致 性 。 如 例 5. 12 所 示 , 对 于 存在 标志 向 量 协议 的 内 存 开 销 是 50% 。 如 果 采 
用 集群 的 结构 ， 每 个 集群 包括 8 个 处 理 器 ， 集 群 内 通过 侦 听 协议 维护 一 致 性 ， 集 群 间 通 过 存在 
标志 向 量 协议 维护 一 致 性 ， 那 么 需要 的 内 存 是 多 少 ? 

如 果 每 个 集群 有 8 个 节点 ， 那 么 就 会 有 16 个 集群 ， 每 个 目录 项 需要 -16 位 。 因 此 内 存 开 销 
是 16/(128 +16) =11% ,这 个 内 存 开销 比 之 前 的 单 级 组 织 方式 看 起 来 要 合理 多 了 a 


5. 5.5 页 面 迁移 和 复制 


对 可 扩展 性 的 需求 促使 我 们 在 cc-NUMA 多 处 理 器 系统 中 将 内 存 分 布 到 各 个 节点 。 在 有 私 
有 cache 的 情况 下 ， 页 蔡 换 策略 就 显得 不 那么 重要 了 。 ,但 是 私有 cache 容量 有 限 ， 对 于 那些 工 
作 集 比 私有 cache 还 大 的 应 用 程序 来 说 ， 容 量 失 效 就 会 很 高 。 为 了 降低 cache 失效 的 开销 ， 一 
个 节点 经 常 访问 的 数据 和 指令 在 理想 情况 下 应 该 放 在 本 地 内 存 或 本 地 共享 cache 中 。 由 于 数据 
结构 在 内 存 中 是 以 页 为 单位 分 配 的 ， 为 了 进一步 开发 局 部 性 ， 虚 存 管理 系统 就 显得 格外 重 
要 了 。 

下 面 给 出 了 几 种 可 供 选择 的 方法 来 将 以 页 为 单位 的 数据 块 存放 到 不 同 存储 模块 中 。 
页 可 以 按照 静态 方式 进行 映射 和 存放 〈 即 静态 页 面 布局 ) ， 或 者 也 可 以 根据 应 用 程序 的 访 
存 模式 在 程序 运行 过 程 中 动态 地 改变 页 面 的 存放 ( 即 动 态 页 面 布局 ) 。 当 任务 在 各 节点 的 
分 布 在 运行 时 会 改变 ,或 者 我 们 运行 程序 之 前 无 法 预测 它 被 分 布 到 哪些 处 理 器 上 时 ， 采 
用 动态 页 面 布局 就 十 分 合理 。 通 过 下 面 矩阵 乘法 的 例子 ， 我 们 可 以 看 出 各 种 页 面 布局 方 
法 出 现 的 动机 。 

全 鸭 回 硕 图 5-2 给 出 的 矩阵 乘法 的 并 行 实现 。 图 5-24a 从 图 5-1 借鉴 了 矩阵 乘法 的 串 
行 实现 。 结 果 和 矩阵 的 每 个 元 素 C[i, j] 是 通过 矩阵 4 的 第 i 行 和 矩阵 B 的 第 j 列 的 点 积 操作 得 
到 的 。 这 步 是 通过 索引 为 的 内 层 循环 完成 的 。 
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for (i=0; i<N;i++) 
for (j=0;j<N;j++){ 
Cl 0s 
for (k=0; k<N; k++) 
CI[i,j]+=A[i,Kk]*B[Ik,j]; 





图 5-24 和 矩阵 乘法 的 并 行 实现 (a) 索引 模式 〈b) 和 页 面 布局 (¢) 


并 行 实现 是 将 算法 最 外 层 的 -for 循环 进行 并 行 。 假 定 和 矩阵 在 内 存 中 按 行 优先 存储 ， 所 有 
矩阵 的 行 在 内 存 中 都 是 一 行 接 一 行 存储 的 。 图 5-24c 第 i 行 占据 了 两 页 (Pl 和 P2)。 第 3 个 
页 (P3) 是 两 个 连续 行 i 和 i+1 共享 的 。 任 务 大 致 被 静态 分 到 PP 个 线程 ,矩阵 C 的 前 WP 
行 是 由 第 二 个 线程 计算 的 ， 接 下 来 的 WP 行 由 第 二 个 线程 计算 ， 依 此 类 推 。 和 矩阵 4 和 C 的 
前 WP 行 只 被 第 一 个 线程 访问 ， 接 下 来 的 WP 行 只 被 第 二 不 线程 访问 ， 依 此 类 推 。 在 这 个 
例子 中 ， 采 用 静态 页 面 布局 的 方法 会 给 并 行 矩 阵 乘法 带 来 很 大 的 好 处 。 比 如 ， 将 所 有 包含 
矩阵 4 和 C 的 前 N/P 行 的 页 面 分 配 到 第 一 个 线程 的 本 地 内 存 中 。 通 过 这 种 静态 的 划分 可 以 
提高 局 部 性 。 但 是 ， 葛 态 任务 分 配 并 不 总 是 好 的 ， 其 至 有 时 候 是 不 可 行 的 。 以 矩阵 乘法 为 
例 ， 出 于 工作 负载 均衡 性 的 考虑 ， 可 能 希望 将 矩阵 的 行动 态 地 分 给 各 线程 。 这 样 ， 显 然 静 
态 页 面 布局 就 不 如 动态 布局 有 效 了 。 此 外 ， 如 果 允 许 进 程 从 一 个 处 理 器 迁移 到 另 一 个 处 理 
器 ， 页 面 也 应 该 被 允许 迁移 。 本 节 讲述 的 一 类 重要 的 动态 页 面 布局 机 制 称 为 页 面 迁移 机 制 
(page-migration scheme) 。 

回 到 和 矩阵 乘法 的 并 行 实现 中 ,我 们 发 现 无 论 怎 样 将 矩阵 4 和 C 的 行 分 配 到 各 线程 ， 所 有 
的 线程 都 需要 访问 矩阵 B 的 所 有 元 素 ， 也 就 表明 无 论 采 取 静 态 或 动态 的 页 面 映射 ， 都 只 会 对 其 
中 的 一 个 线程 有 利 。 因 此 需要 做 的 是 将 包含 矩阵 B 的 元 素 的 页 面 在 所 有 线程 中 存储 模块 都 复制 
一 遍 。 页 面 复 制 主要 受到 两 个 因素 的 制约 : 第 一 ， 物 理 页 面 的 复制 会 消耗 宝贵 的 物理 内 存 空 
间 ， 因 此 需要 在 挖掘 局 部 性 和 降低 缺 页 率 之 间 进行 权衡 ; 第 二 ， 如 果 在 内 存 这 一 级 没有 维护 一 
致 性 ， 那 么 只 能 复制 只 读 的 页 面 。 4 
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那些 很 少 被 虚 存 管 理 程序 修改 的 页 面 也 可 以 进行 页 面 复 制 。 起 初 ， 一 个 页 面 可 能 是 只 读 并 
且 写 保护 的 ， 当 这 个 页 面 被 修改 时 ， 内 存 控制 单元 通过 写 访 问 保护 异常 处 理 程序 检查 到 这 一 修 
改 操 作 ， 并 且 在 处 理 程序 中 采取 恰当 的 动作 ， 这 些 动 作 包括 使 其 他 节点 中 对 该 页 的 TLB 项 无 
效 ， 并 且 使 该 页 对 应 的 cache 项 无 效 ， 这 同 $. 4.7 节 中 讲 的 一 样 。 在 稍 后 的 某 个 时 间 ， 可 以 通 
过 类 似 的 机 制 将 访问 权限 转 回 为 只 读 的 。 这 种 允许 一 个 虚 页 有 多 个 拷贝 的 物理 页 布局 机 制 也 被 
称 为 页 面 复制 机 制 (page-replication schemes ) 。 

静态 页 面 布局 机 制 

在 不 知道 线程 对 页 面 的 访问 模式 的 情况 下 ， 一 个 合理 的 策略 就 是 将 这 些 页 面 平均 分 配 到 各 
节点 。 一 种 方法 叫 作 轮 询 (round-robin) 页 布局 。 在 这 种 方式 下 ， 假 设 有 六 个 节点 ， 则 页 面 天 
被 映射 到 节点 工 =K mod W 上 。 有 些 操作 系统 ， 比 如 SGI 的 IRIX， 允 许 在 代码 中 嵌入 制导 命令 
来 选择 页 面 布 局 方式 。 它们 也 支持 利用 代码 中 的 指令 将 某 个 页 固定 到 某 个 节点 上 ， 我 们 可 以 利 
用 这 个 特点 ， 在 矩阵 乘法 例子 中 将 矩阵 4 和 C 的 页 面 固定 住 。 

另 一 种 静态 页 面 布局 策略 是 首次 访问 (first-touch) ， 即 页 面 被 分 配 到 第 一 次 访问 它 的 处 理 
器 的 内 存 中 。 根据 直觉 ， 第 一 个 访问 页 面 的 线程 可 能 是 唯一 访问 该 页 的 线程 ,或 者 至 少 是 访问 
最 频繁 的 线程 。 对 于 上 面 提 到 的 和 矩阵 乘法 的 例子 ， 首 次 访问 布局 会 根据 任务 分 配 情况 进行 页 面 
分 配 ， 这 是 有 利 的 。 但 是 总 的 来 说 ， 首 次 访问 页 布局 也 有 和 缺陷。 比如 ， 很 多 并 行程 序 在 进入 
并 行 阶段 之 前 会 有 初始 化 的 阶段 ， 在 初始 化 阶段 ， 主 线程 会 为 并 行 阶段 进行 数据 准备 ， 这 就 可 
能 从 磁盘 中 读 取 原始 数据 。 例 如 ， 在 和 矩阵 乘法 的 算法 中 ， 主 线程 可 能 会 先 读 取 和 矩阵 A 和 B 的 
内 容 。 如 果 没 有 特殊 的 处 理 ， 首 次 访问 策略 可 能 会 将 主线 程 访 问 的 所 有 数据 都 放 到 主线 程 所 在 
的 处 理 器 节点 上 。 在 这 种 情况 下 ， 在 进入 并 行 阶段 前 采用 首次 访问 进行 页 面 分 配 是 不 会 有 好 的 
效果 的 。 为 了 解决 这 个 问题 ， 可 以 在 代码 中 插入 指令 来 保证 只 有 进入 并 行 阶段 后 才能 采用 首次 
访问 进行 分 配 。 

指导 页 面 分 配 策略 的 一 个 常见 问题 是 页 面 本 身 的 粒度 大 小 。 比 如 ， 和 矩阵 的 一 行 大 小 很 可 能 
不 是 页 面 大 小 的 整数 倍 。 这 样 ， 一 个 页 面 可 能 被 多 个 线程 访问 。 在 和 矩阵 乘法 的 例 手 中 ， 如 
图 5-24c 所 示 , 第 i 行 和 第 i+1 行 共享 的 页 面 P3 就 是 这 种 情况 。 

页 面 迁 移 机 制 

假设 我 们 提前 知道 了 每 一 个 线程 的 访问 模式 ， 在 这 种 情况 下 ,， 就 很 有 可 能 对 每 个 页 决定 最 
优 的 静态 分 配 : 只 需要 对 每 个 页 面 访 问 的 线程 进行 计算 ， 将 这 个 页 面 分 配 到 访问 次 数 最 高 的 节 
点 上 。 页 面 也 可 能 出 现 迁 移 ， 从 而 增加 对 每 一 页 的 本 地 访问 。 如 果 知 道 页 面 迁移 的 访问 开销 ， 
就 可 能 针对 是 否 迁 移 以 及 什么 时 候 进 行动 态 迁 移 得 到 最 优 决 定 策略 。 

局 有 油 假设 对 一 个 页 远程 访问 的 开销 是 C， 迁 移 一 个 页 的 开销 是 M。 为 了 简便 ， 假 设 本 
地 内 存 访问 的 开销 是 0。 现 在 考虑 这 种 情况 ， 一 个 分 配 到 N1 节点 的 页 被 男 一 个 节点 N2 上 的 一 
个 线程 访问 了 天 次 。 那 么 这 个 页 要 被 N2 访问 多 少 次 才能 抵消 掉 迁 移 到 N2 的 开销 ? 

如 果 没 有 迁移 , 访问 开销 是 KxC。 如 果 进 行 页 迁移 ， 开销 的 下 界 是 衣 。 那 么 ， 当 KK>M/C 
时 就 可 以 抵消 掉 页 迁移 的 开销 。 本 

然而 实际 情况 是 ， 在 大 多 数 情况 下 ， 我 们 是 无 法 提前 知道 尚未 发 生 的 访问 序列 的 。 因此， 
在 线 〈 或 动态 ) 页 面 迁 移 机 制 必须 根据 之 前 的 访问 序列 来 预测 未 来 的 访问 序列 。 一 种 方法 是 
记录 远程 访问 的 次 数 ， 当 次 数 超过 某 个 预先 设 定好 的 阔 值 时 ， 就 进行 页 面 迁 移 : 在 例 5.15 中 ， 
当天 超过 M/C 时 ， 就 可 以 进行 页 面 迁移 了 ， 这 就 将 总 开销 限制 到 了 2WM。 为 了 实现 这 种 机 制 ， 
在 有 W 个 节点 的 系统 中 ， 每 个 页 面 需要 W 个 计数 器 。 在 程序 运行 前 ， 每 个 页 面 的 计数 器 都 置 
为 0。 当 远程 访问 一 个 页 面 时 ， 与 远程 节点 对 应 的 计数 器 就 会 加 一 ， 其 他 某 个 任 选 的 计数 器 被 
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减 一 。 当 计数 值 超过 2M/C 一 一 迁移 开销 的 2 倍 〈 以 远程 访问 开销 为 单位 ) 时 ， 就 将 这 个 页 迁 
移 到 远程 节点 。 

采用 这 种 方法 ， 访 问 的 开销 不 会 超过 预先 知道 未 来 访问 序列 的 最 优 方 法 的 3 倍 。 举 个 例 
子 ， 如 果 节 点 XI 的 一 个 页 被 节点 N2 远程 访问 了 2M/C 次 ， 然 后 被 迁移 到 N2， 然 后 又 被 节点 
NL 远程 访问 了 2MXC 次 ,再 次 被 迁移 到 节点 NE, 最 优 迁移 算法 的 开销 是 2M， 而 在 线 迁 移 算法 
的 访问 开销 是 6M。 对 于 这 种 最 坏 情况 下 的 访问 ,开销 是 最 优 页 面 分 配 的 3 倍 。 

页 面 迁移 开销 M 包括 两 方面 : 一 个 开销 是 重新 映射 页 面 并 且 改 变 页 表 项 ， 同 5.4:7 节 中 讨 
论 的 二 样 ; 这 会 引起 TLB 无 效 操作 ; 男 一 loonie a 
到 勇 到 个 节点 的 内 存 s 

页 面 复制 机 制 

如 图 5-24 所 示 的 矩阵 乘法 的 并 行 实现 中 ， 所 有 线程 都 要 访问 矩阵 互 的 所 有 元 素 。 此 时 页 
面 迁移 机 制 只 会 使 一 个 节点 收益 ， 因 此 也 就 没什么 效果 ， 我 们 需要 将 所 有 的 页 面 都 复制 给 每 个 
节点 。 

一 种 简单 的 页 面 复制 机 制 实现 是 ， 对 每 个 页 帧 提供 一 组 计数 器 。 与 页 面 迁移 类 似 : 如 果 复 
制 开销 是 玉 , 页 面 在 被 远程 节点 访问 的 次 数 超过 RAC 次 后 就 进行 复制 。 如 果 远 程 节 点 在 复制 之 
后 不 再 进行 页 面 访问 了 ,那么 同 不 复制 页 面相 比 ， 额 外 的 开销 就 是 R。 


5. 6 全 cache 共享 内 存 系 统 


在 可 扩展 的 cc=NUMA 系统 中 ， 更 多 的 是 应 用 基于 目录 的 cache 协议 ， 因 为 这 种 协议 只 需 保 
持 涉 及 某 个 一 致 性 事务 的 节点 间 的 一 致 性 ， 而 不 像 侦 听 协议 那样 需要 涉及 所 有 的 节点 。 在 ce- 
NUMA 设计 时 另 二 个 很 重要 的 问题 是 通过 静态 还 是 动态 页 面 布局 来 优化 系统 ， 使 其 在 页 面 级 可 
以 尽 可 能 地 利用 局 部 性 。 但 是 ， 页 面 迁移 或 者 复制 机 制 只 能 以 页 面 为 单位 来 挖掘 局 部 性 。 只 有 
知道 哪个 节点 对 整个 页 面 的 数据 访问 次 数 最 多 ， 静 态 的 或 可 迁移 的 页 面 布局 策略 才 会 有 用 。 对 
页 面 的 复制 要 求 页 面 经 常 被 访问 但 很 少 被 修改 ， 因 为 维护 页 面 级 的 一 致 性 需要 虚 存 管理 系统 的 
参与 ， 这 个 开销 是 非常 大 的 。 

这 些 缺 点 告诉 我 们 ， 通 过 硬件 协议 ， 以 一 个 更 加 恰当 的 单位 ， 比 如 cache 块 ， 来 支持 存储 
级 的 迁移 和 复制 机 制 应 该 是 个 不 错 的 想法 。 本 节 ， 我 们 介绍 全 cache 存储 体系 结构 ( Cache-On- 
ly Memory Architecture，COMA) 的 概念 ，COMA 将 运行 内 存 块 在 私有 eache 和 本 地 内 存 之 间 迁 
移 和 复制 。 


5. 6. 1 基本 概念 、 硬 件 结构 和 协议 


利用 对 虚 存 管理 系统 透明 的 硬件 协议 ,COMA 系统 支持 内 存 块 在 NUMA 组 织 结构 中 的 存 
储 体 之 间 进 行 迁移 和 复制 8 概念 上 ， 是 将 NUMA 机 器 的 每 个 节点 都 转化 为 一 个 类 似 于 cache 、 
的 结构 ， 然 后 利用 与 维护 私有 :cache 间 一 致 性 类 似 的 机 制 来 维护 这 些 节 点 间 的 内 存 块 一 
致 性 。 

我 们 先 通过 基于 总 线 的 结构 来 认识 一 下 COMA 所 需 的 硬件 结构 ， 以 及 这 种 共享 内 存 系统 所 
需 关 注 的 一 些 新 问题 。 

COMA 架构 的 硬件 结构 和 设计 问题 

为 了 介绍 :COMA 架构 ; 我 们 先 来 考虑 如 何在 一 个 简单 系统 中 支持 这 种 架构 ， 这 个 简单 系统 
由 一 些 节 点 组 成 ， 而 每 个 节点 有 一 个 处 理 器 以 及 附属 的 私有 cache 和 本 地 内 存 s 节点 间 通 过 基 
于 广播 的 互连网 络 (如 总 线 ) 连接 ， 图 5-25 给 出 了 这 种 架构 。 
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基于 总 线 或 者 其 他 基于 广播 的 互 连 





图 5-25 ”基于 总 线 的 全 cache 内 存 架 构 (COMA) 


这 个 多 处 理 器 的 内 存 组 织 方式 与 图 5-18 所 示 的 cc-NUMA 内 存 组 织 方式 不 同 , 这 里 的 每 个 
存储 模块 被 转化 为 一 种 类 似 cache 的 结构 ， 称 为 吸附 存储 ( Attraction Memory ，AM) 。 图 中 给 出 
了 放大 的 AM 的 视图 ， 像 cache 行 一 样 ， 每 个 内 存 块 都 有 一 个 标识 (tag) 和 一 些 状态 信息 。 利 
用 这 些 额 外 的 信息 ， 可 以 将 一 个 块 迁 移 到 任何 AM 中 ,也 人 允许 在 多 个 AM 中 有 备份 。COMA 中 
的 所 有 AM 都 包含 了 整个 应 用 程序 的 足迹 ， 并 且 有 人 额外 的 空间 来 复制 一 些 节点 间 的 内 存 块 。 

在 COMA 中 每 个 内 存 块 可 以 被 放 在 任何 节点 的 内 存 中 ， 而 在 cc-NUMA 中 ， 内 存 块 会 固定 
放 在 一 个 有 物理 地 址 指向 的 主 位 置 ， 这 就 使 得 以 内 存 块 为 单位 迁移 和 复制 内 存 成 为 可 能 。 虽 然 
便于 理解 ， 但 将 内 存 视 为 cache 会 带 来 一 些 新 的 设计 问题 。 

在 cc-NUMA 的 私有 cache 中 ， 当 一 个 内 存 请 求 失 效 时 ， 通 过 物理 地 址 可 以 找到 存储 内 存 块 
的 存储 模块 ， 即 该 块 的 主 节点 。 但 是 ,在 COMA 中 ， 一 个 内 存 块 可 以 存在 任何 AM 中 。 因 此， 
确定 块 在 内 存 中 的 位 置 是 很 重要 的 。 对 块 定位 (block localization) 机 制 的 需求 是 cc-NUMA 和 
COMA 机 器 的 第 一 个 不 同 。 

由 于 在 COMA 中 ， 本 地 内 存 被 转化 为 一 个 大 的 cache 节点 (AM)， 那么 ， 在 本 地 AM 中 就 
很 可 能 找到 所 需 的 内 存 块 。 因 此 ， 块 定位 过 程 首先 通过 标识 + 状态 检查 来 遍历 本 地 AM。 如 果 
在 本 地 AM 中 没有 找到 需要 的 块 ， 则 它 一 定 在 某 个 远程 节点 中 。 通 过 类 似 于 MOESI 的 内 存 级 一 
致 性 协议 ， 可 以 定位 该 块 。 一 旦 定位 完成 后 ,本 地 AM 中 会 存 人 一 个 备份 , 这 一 操作 可 能 会 触 
发 AM 的 替换 操作 。 在 传统 的 内 存 组 织 的 ,cache 中 ， 圭 换 一 个 块 很 简单 ， 如 果 没 有 修改 过 就 可 
以 直接 被 丢弃 ; 如 果 修改 过 ， 就 将 它 写 回 到 固定 的 主 节点 的 内 存 中 。 但是， 在 COMA 中 没有 这 
个 固定 的 主 位置 。 如 果 要 换 出 的 块 是 整个 存储 系统 中 唯一 的 备份 块 ， 即 使 没有 被 修改 过 也 不 能 
丢弃 它 。 因 此 ， 内 存 级 的 协议 必须 能 够 为 这 个 块 找 一 个 新 的 主 位 置 。 块 重 定位 (block reloca- 


”tion) 是 COMA 机 器 设计 的 另 一 个 需要 处 理 的 问题 。 


AM 块 蔡 换 的 频率 取决 于 AM 的 大 小 以 及 它们 之 间 的 关联 性 。 在 传统 存储 系统 中 ， 如 果 一 
个 程序 占用 的 地 址 空间 与 它 的 整个 足迹 (程序 执行 期 间 访问 的 所 有 内 存 地 址 ) 的 大 小 一 样 ， 
则 所 有 的 内 存 块 都 会 有 一 个 固定 的 主 位 置 。 但 是 ， 在 COMA 中 并 不 是 这 样 的 。 正 如 cc- NUMA 
的 页 面 复制 ，COMA 中 内 存 块 级 别 的 复制 需要 消耗 比 应 用 程序 足迹 更 多 的 内 存 空间 。 因 此 ， 程 
序 在 COMA 中 会 占用 比 在 cc-NUMA 中 更 多 的 内 存 ， 内 存 开销 (memory overhead) 是 COMA 中 
需要 考虑 的 一 个 重要 问题 。AM 中 的 冲突 失效 也 会 触发 块 重 定位 。 正 因 如 此 ， 还 需要 慎重 考虑 
AM 间 的 关联 性 。 更 高 的 关联 性 会 降低 块 重 定位 次 数 ， 但 也 会 导致 更 长 的 AM 访问 时 间 。 在 
COMA 中 ， 块 重 定位 次 数 、 内 存 开 销 和 AM 访问 时 间 是 设计 时 需要 权衡 的 重要 方面 。 
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同 cc-NUMA 的 内 存 相 比 一 由 于 多 出 了 标识 和 状态 信息 ; COMA 的 每 个 AM 都 会 增加 内 存 
开销 。 假 设 一 个 COMA- 机 器 有 个 节点 ， 每 个 节点 对 AM 采取 直接 映射 ， 则 一 个 内 存 块 可 以 存 
放 在 NN 个 不 同 的 地 方 。 因 此 ， 每 个 内 存 标识 的 大 小 是 log, N 位 。 如 果 每 个 节点 中 的 相 联 度 是 4， 
标识 会 增加 log; 4 位 。 假 设 每 个 AM 项 有 5S 个 不 同 状态 ,那么 还 需要 额外 的 log, 5 个 状态 位 。 最 
后 ,每 个 AM 块 的 内 存 开销 为 

overhead = log, N +-log, A + log, S 
ph et (direct memory overhead) 的 (静态 ) 内 存 开销 之 外 ， 内 存 开销 
一 个 来 源 是 块 复制 ， 这 是 同 具体 程序 相关 的 ， 叫 作 间接 内 存 开销 (indirect 
memory overhead ) 。 

内 存 压力 (memory pressure) 是 经 常用 来 表示 COMA 几 污 向 笑 六 六 次 一 个 六 流 ， 它 的 大 小 
是 由 程序 足迹 除 以 分 配给 程序 的 内 存 (包括 复制 空间 ) 大 小 决定 的 。 例如， 内 存 压力 为 75% 
表明 有 25% 的 空间 可 以 用 来 复制 。 当 内 存 压 力 增加 至 接近 100% 时 ， 内 存 块 的 替换 会 增加 ， 性 
能 会 下 降 到 发 生 虚 存 系统 中 常见 的 颠 复 (thrashing) 状态 。 

品 有 s 玩 3》 假设 一 个 COMA 机 器 有 128 个 四 路 组 相 联 的 AM， 支 持 内 存 级 的 一 致 性 协议 ， 每 
个 64 字 节 的 块 有 8 个 状态 ,计算 总 的 内 存 开销 (直接 的 和 间接 的 )。 假 定 COMA 的 内 存 压 力 为 
90% 。 

每 个 内 存 块 的 直接 内 存 开销 为 log, 128 + log, 4 + log: 8 =12 位 。 内 存 块 大 小 为 64 x 8 =512 
位 。 内 存 压 力 为 90% 表 示 复 制 需 要 额外 10% 的 空间 。 因 此 ， 为 了 复制 ， 每 个 64 字 节 的 块 需要 
增加 6 字 节 =48 位 。 最 后 ， 这 个 COMA 系统 的 每 个 块 需要 12 + 48 位 开销 ， 内 存 开销 的 比例 为 
60/(512 +60) =0.1。 从 而 ，COMA 系统 中 10% 的 内 存 空间 用 来 管理 AM 和 复制 。 我 们 在 本 例 
中 没有 计算 目录 开销 ， 因 为 绝 大 多 数 可 扩展 系统 都 有 这 个 开销 ， 并 不 只 是 COMA 有 的 。 < 


5. 6.2 平坦 COMA 


COMA 架构 的 多 处 理 器 系统 可 能 是 基于 总 线 的 或 是 分 层 的 ， 也 可 能 在 分 布 式 共享 内 存 多 处 
理 器 系统 (NUMA) 中 通过 适当 的 结构 修改 来 引入 COMA 的 概念 。 图 5-26 给 出 了 平坦 COMA 
所 需 的 硬件 结构 及 其 组 织 方式 。“ 平 坦 ”(flat) 指 的 是 存储 系统 并 没有 采用 层次 化 结构 。 


通用 ( 可 扩展 ) 互连网 络 





图 5-26 平坦 COMA 的 硬件 结构 和 组 织 方式 
同 cc-NUMA 架构 类 似 ， 平 坦 COMA 有 多 个 节点 ， 每 个 节点 有 一 个 或 多 个 处 理 器 以 及 私有 
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cache、 一 部 分 内 存 和 一 个 目录 结构 。 与 cc-NUMA 不 一 样 的 地 方 在 于 ,. 对 应 每 个 节点 上 的 共享 
内 存 是 被 组 织 成 吸附 存储 的 结构 。 我 们 之 前 讲 过 ,在 ce-NUMA 中 ， 本 地 目录 中 记录 了 本 地 节 
点 中 的 块 在 其 他 节点 中 的 备份 情况 。 而 在 COMA 中 ， 内 存 块 并 没有 一 个 固定 存储 的 主 节点 ， 因 
此 需要 采取 一 些 不 同 的 方法 。 

在 平坦 COMA 中 ， 内 存 块 对 应 的 目录 项 有 固定 的 主 位 置 ， 这 同 cc-NUMA 一 样 ， 可 以 通过 
物理 地 址 定位 到 主 节点 。 但 是 ， 在 COMA 中 ; 主 节点 的 目录 只 记录 含有 备份 块 的 远程 吸附 存 
储 ， 而 不 像 cc- NUMA 那样 记录 的 是 备份 块 ， 而 目录 项 与 本 地 AM 中 的 项 并 不 直接 相关 。 
图 5-26 中 给 出 了 目录 结构 的 详细 信息 ， 这 里 简要 介绍 一 下 相关 的 协议 ， 该 协议 很 大 程度 上 受 
到 了 MOSI 协 议 的 启发 ，MOSI 协议 是 MOESI 协议 的 子 集 ， 它 去 掉 了 独占 状态 ， 内 存 块 的 状态 有 
无 效 (ID) 、 共 享 (S) 、 拥 有 (0) 和 修改 (M) 这 4 种 形式 。 

主 节点 中 的 每 个 目录 项 有 3 个 域 ， 从 左 到 右 第 一 个 为 主 指针 (master pointer) ， 指 向 状态 为 
0 或 M 的 数据 块 拥有 节点 。 下 一 个 域 是 存在 标志 向 量 (PFV)， 指 向 AM 中 含有 该 块 的 节点 。 
最 后 一 个 是 脏 位 (D) ， 表 明 在 只 有 一 个 备份 块 的 情况 下 ， 该 块 的 状态 是 0(D =0) 还 是 
M(D =1)。 对 于 处 在 状态 0 或 M 的 备份 块 ， 由 主 指针 指向 的 .AM 是 该 块 的 拥有 者 ， 并 且 在 发 
生 失 效 时 提供 块 的 拷贝 。 

现在 我 们 来 看 平坦 COMA 是 怎样 处 理 内 存 块 的 定位 以 及 重 定 位 的 。 在 平坦 COMA 中 ,最 
多 通过 三 次 网 络 跨越 可 以 定位 到 一 个 块 ， 步 又 如 下 : 首先 向 主 目录 发 送 BusRd 请 求 ， 主 目录 将 
请 求 传递 给 主 指针 指向 的 节点 ， 该 节点 会 进行 响应 ， 并 且 发 出 一 个 同 ce-NUMA 中 处 理 远程 失 
效 (图 5-21) 类 似 的 事务 流 。 其 他 一 致 性 事务 同 cc-NUMA 的 cache 目录 协议 中 的 事务 类 似 。 

我 们 需要 关注 一 下 COMA 中 块 的 重 定 位 问题 。 当 一 个 换 出 块 处 在 状态 $ 时， 只 要 通知 主 目 
录 ， 主 目录 将 该 节点 从 PFV 中 抹 去 后 就 可 以 将 它 丢 弃 了 。 但 是 ， 如 果 块 处 在 状态 0 或 M， 该 
块 的 拥有 权 甚 至 数据 本 身 都 要 传送 给 另 一 个 节点 。 由 于 记录 了 哪些 节点 中 该 备份 块 的 状态 为 
S， 因 此 ， 此 时 主 目录 项 可 以 指定 一 个 新 的 拥有 者 。 


习题 
5.1 图 5-27 给 出 的 顺序 伪 代 码 实现 了 利用 Gauss-Seidel 红 黑 排序 方法 求解 线性 方程 组 的 算法 。 外 层 循环 
会 一 直 循环 到 满足 某 个 收敛 条 件 时 结束 ， 我 们 稍 后 会 进行 解释 。 外 层 while 循环 的 每 一 次 迭代 ， 会 
访问 立 乘 W 的 矩阵 4 的 所 有 元 素 。 每 个 矩阵 元 素 通过 计算 它 的 旧 值 和 邻居 元 素 ( 北 、 东 、 南 、 
西 ) 值 的 平均 数 得 到 。 为 了 简便 ， 假 设 和 矩阵 周围 会 有 一 层 值 为 0 的 边界 元 素 。 每 个 元 素 都 会 在 
3 ~9 行 和 10 ~16 行 的 两 个 连续 嵌 套 for 循环 中 被 访问 ， 每 个 能 套 for 循环 都 会 隔 一 个 元 素 进 行 访问 。 
这 种 策略 称 为 红 黑 排序 ， 它 消除 了 循环 依赖 ， 很 大 程度 上 简化 了 对 这 个 算法 的 并 行 化 。 当 两 个 连 
续 循 环 中 每 个 元 素 新 旧 值 之 差 相 加 的 和 小 于 某 个 阔 值 时 ， 算 法 停止 欠 代 。 在 每 两 个 for 循环 的 第 8 
行 和 15 行 通过 变量 sum_of_diff 累加 其 值 ， 并 且 在 第 17 行 同 阐 值 进行 比较 ， 当 累加 的 和 小 于 立 值 
时 ,算法 停止 。 我 们 的 任务 是 将 这 个 串 行 算法 改写 为 共享 内 存 系统 的 并 行 算法 。 
(a) 当 和 矩阵 元 素 没有 循环 依赖 时 ， 外 围 while 循环 的 每 次 迭代 的 两 个 骨 套 for 循环 可 以 并 行 。 但 是 
对 差 值 求 和 会 带 来 循环 依赖 。 利 用 同 5. 2. 1 节 中 和 矩阵 乘法 算法 一 样 的 方法 ， 即 将 累加 差 值 的 
部 分 放 入 临界 区 ,将 两 个 柑 套 循环 并 行 化 。 
(b) 第 一 次 的 并 行 循环 必须 在 第 二 次 并 行 循环 开始 前 结束 。 另 外 ， 在 检测 是 否 满足 收敛 条 件 之 前 ， 
必须 累加 完 两 个 舱 套 循环 中 所 有 和 矩阵 元 素 的 差 值 。 像 5. 2. 1 节 介绍 的 那样 ， 可 以 利用 障碍 同 
步 来 保证 这 个 顺序 。 对 这 个 共享 内 存 的 并 行 算 法 来 说 ， 应 该 在 哪里 添加 障碍 同步 ? 如 果 没 有 
障碍 同步 会 产生 什么 问题 ? 
(c) 假设 矩阵 含有 1024 x 1024 个 元 素 。 每 个 元 素 的 计算 需要 10ns， 可 以 用 16 个 处 理 器 并 行 执行 。 
创建 线程 花费 100ns， 并 且 主 线程 顺序 创建 子 线程 。 假 设 顺序 执行 的 部 分 ， 如 临界 区 内 的 运 
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1 while (!converged) { 
2 sum of diff = 07 
3 for -(i=0;i<N;i++) 
4 for (j=i%2;j<N;j+=2){ 
5 oldaA = A[i,j] 
6 Afiij] so01GA,. + ALL-1.j] + Ali,j+1] + 
J XLS=17j 全 加 了 和 一 
8 sum of diff += abs (A[i,j] - o0ldA); 
} 
for (i=0;i<N;i++) 
for (j=(i+1)%®2;j<N;j+=2){ 
oldaA = A[i,j]; K 
A[i,j] = ‘oldA + A[it1,j] + A[i,j+1] + 
A[L 坟 了 Jj] j=; 
sum of diff += abs(A[i,j] - oldA); 


if (sum of diff/(N*N) < TH) converged = 1; 





5-27 利用 Gauss-Seidel 法 求解 线性 方程 组 的 顺序 算法 伪 代 码 


行 ， 每 次 需要 100ns， 外 围 while 循环 在 收敛 之 前 需要 执行 10 次 ， 请 计算 获得 的 加 速 比 。 
在 探索 一 个 新 的 片上 多 处 理 器 系统 的 设计 时 ， 很 重要 的 一 个 决策 是 cache 组 织 方式 的 选择 。 
在 5.4.1 节 我 们 讨论 了 共享 和 私有 cache 之 间 的 权衡 ， 在 本 题 中 ， 我 们 定量 地 探讨 这 个 问题 。 假 设 
一 个 片上 多 处 理 器 有 4 个 处 理 器 核 。 我 们 可 以 选择 私有 的 或 者 共享 的 一 级 cache 组 织 ， 这 两 种 方式 
消耗 相同 的 芯片 资源 。 下 面 给 出 了 每 种 cache 组 织 的 具体 条 件 ， 两 种 组 织 的 块 大 小 都 为 16 字 节 。 
秘 有 cache 方式 : 每 个 私有 cache 有 8 个 块 项 ,采取 直接 映射 ，cache 命中 时 间 为 1 个 周期 。 私 
有 cache 间 的 一 致 性 通过 5. 4. 2 节 介 绍 的 简单 协议 维护 ， 执 行 一 个 侦 听 操作 的 时 间 是 10 个 周期 ， 如 
果 要 从 内 存 重新 载 人 一 个 块 ， 需 要 100 个 周期 。 
共享 cache 方式 : 共享 cache 的 块 项 数 与 私有 cache 中 块 数 的 总 和 相同 。 此 外 ， 它 被 划分 为 同 
处 理 器 个 数 相同 的 多 个 bank， 内 存 块 按照 轮 询 的 方式 映射 到 不 同 的 bank 上 ， 块 地 址 i 被 映射 到 i 
modulo B 的 bank 中 ,其 中 B 是 bank 数 。 处 理 器 通过 使 用 一 个 B x B 大 小 的 交叉 开关 ( 见 第 6 章 ) 
来 访问 各 个 bank。 如 果 没 有 竞争 ,访问 一 个 cache bank 需要 2 个 周期 ， 而 块 从 内 存 中 载 人 则 需要 
100 个 周期 。 
(a) 如 果 单 个 处 理 器 连续 两 次 顺序 访问 内 存 块 0~15,， 计算 两 种 组 织 结构 的 平均 内 存 访问 时 间 。 哪 
种 组 织 方式 的 访 存 时 间 最 短 ? 最 短 需 要 多 长 时 间 ? 
(b) 如 果 每 个 处 理 器 连续 两 次 顺序 访问 内 存 块 0~15， 和 忽略 竞争 因素 ,计算 两 种 方法 的 平均 访 存 时 
间 。 哪 种 组 织 方式 的 访 存 时 间 最 短 ? 它 需 要 多 长 时 间 ? 
(6) 给 处 理 器 编号 1， …， 4。 如 果 处 理 器 ii 连续 两 次 顺序 访问 8x (i-1) 到 8x(i-1) +7 的 内 存 
块 ， 忽略 竞争 因素 ,计算 两 种 方法 的 平均 访 存 时 间 。 哪 种 组 织 方式 的 访 存 时 间 最 短 ?” 最 短 需 
要 多 长 时 间 ? L 
(d) 假设 块 0=7. 初 始 时 已 经 存在 这 两 种 cache 组 织 中 。 现 在 假设 处 理 器 1 修改 了 所 有 块 ， 处 理 器 2 
接 下 来 读 取 所 有 块 ， 忽 略 竞争 因素 。 哪 种 组 织 方式 的 访 存 时 间 最 短 ?” 最 短 需要 多 长 时 间 ? 
(e) 基于 之 前 定量 获得 的 结果 ， 在 什么 条 件 下 私有 cache 的 平均 性 能 优 于 共享 cache? 为 什么 很 多 
片上 多 处 理 器 的 设计 喜欢 采用 私有 的 一 级 cache， 而 二 级 或 三 级 cache 一 般 采 用 共享 的 ? 
考虑 一 个 包含 8 个 处 理 器 的 共享 内 存 多 处 理 器 系统 ， 每 个 处 理 器 有 一 个 私有 cache ，cache 一 致 性 通 
过 5.4.2 节 介 绍 的 简单 协议 维护 。 总 线 仲 裁 机 制 根 据 处 理 器 /cache 单 元 的 编号 采用 固定 优先 级 的 方 
式 ， 当 编号 为 i 和 j 的 两 个 单元 同时 发 出 总 线 请 求 且 i<j 时 ， 单元 i 会 得 到 总 线 。 但 是 ， 总线 仲裁 
机 制 可 以 “ 记 住 ”上 次 获得 总 线 的 单元 ; 该 单元 在 下 一 个 总 线 周 期 不 能 获得 总 线 。 现 在 让 每 个 处 
理 器 都 对 同一 个 地 址 发 送 一 个 写 请 求 ， 并 且 紧 接着 发 送 一 个 读 请 求 ， 每 个 处 理 器 向 该 地 址 写 入 其 
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5.4 


5.5 


5.6 


单元 编号 。 请 问 每 个 处 理 器 的 读 请 求 会 返还 什么 值 ? 
假设 一 个 共享 内 存 多 处 理 器 系统 中 通过 私有 cache 连接 到 共享 总 线 上 上， 并 用 MSI 协议 来 维护 cache 
一 臻 性。 执行 各 种 协议 动作 的 时 间 如 表 5-6 所 示 。 读 命中 和 写 命中 只 需要 1 个 时 钟 周期 ， 而 读 请 求 
需要 40 个 周期 ， 因 为 需要 将 块 从 存储 层次 的 下 一 级 中 取 回 。 总 线 更 新 请 求 的 时 间 比 较 少 ， 这 是 因 
为 它 不 引入 块 传输 ， 而 是 使 其 他 拷贝 无 效 。 这 个 动作 包括 将 请 求 传输 到 总 线 ， 并 且 每 个 cache 需要 
进行 一 次 侦 听 ， 侦 听 动 作 的 时 间 也 列 在 了 表 5-6 中 。 


表 5-6 协议 动作 的 时 间 以 及 流量 参数 B 是 块 大 小 






































请 求 类 型 执行 协议 动作 所 需 的 时 间 流量 

读 命 中 eels 1 个 时 钟 周期 N/A 

写 命中 1 个 时 钟 周期 N/A 

读 请 求 在 下 一 级 存储 中 完成 40 个 时 钟 周期 6 字 节 +B 

读 请 求 在 私有 cache 中 完成 20 个 时 钟 周期 6 字 节 +B 

独占 读 请 求 在 下 一 级 存储 中 完成 。 |。 40 个 时 钟 周期 6 字 节 +B 

独占 读 请 求 在 私有 cache 中 完成 20 个 时 钟 周 期 6 字 节 +B 

总 线 更 新 请 求 | 10 个 时 钟 周期 10 字 节 

拥有 权 请 求 10 个 时 钟 周期 。 ”| ”6 字 节 

侦 听 动作 5 个 时 钟 周期 N/A 


假定 有 如 下 的 对 块 X 和 了 的 读 写 序列 : RI1/X,R2/X, R3/Y, R4/X, Wl/X,，R2/X，R3/Y, 

R4/X， 其 中 RVB 以 及 WiB 分 别 代表 处 理 器 ;或 者 cache 单元 i 对 块 B 的 读 和 写 操 作 ， 请 针对 下 面 

的 每 种 情况 分 别 计算 上 述 读 写 序列 所 需要 的 时 间 。 

(a) 假设 侦 听 动作 优先 于 同一 个 单元 的 处 理 器 读 / 写 请 求 ， 这 些 请 求 必 须 等 到 侦 听 操作 先 完成 。 此 
外 ， 标 识 目 录 没 有 进行 复制 。 

(b) 假设 对 标识 目录 进行 复制 ， 允 许 输入 的 侦 听 动作 和 输出 的 处 理 器 读 写 协议 动作 同时 发 生 。 在 
这 种 情况 下 ， 同 一 时 刻 对 标识 目录 的 并 发 查找 只 能 发 生 在 侦 听 动作 不 会 改变 块 状态 的 前 提 下 。 
计算 每 个 处 理 器 执行 完 这 些 访 存 请 求 所 需要 的 时 间 。 

假设 在 一 个 共享 内 存 多 处 理 器 中 ， 处 理 器 /私有 cache 单元 是 通过 共享 的 单 事务 总 线 连接 。 基 准 一 致 

性 协议 是 MSI 协议 ， 但 是 我 们 想 知 道 增加 一 个 独占 状态 让 其 成 为 5.4.3 节 那 样 的 MESI 协议 后 ， 性 能 

方面 会 有 多 少 提升 。 我 们 采用 和 5. 4 题 中 相同 的 假设 和 标记 ， 分 别 采 用 MSI 协议 和 MESI 协议 的 情况 

下 ， 我 们 想 知道 执行 如 下 访 存 操作 序列 所 需要 的 时 间 是 多 少 。 处 理 器 访问 操作 序列 的 顺序 如 下 : 

RI/X, Wl/X, Wl/X, R2/X, W2/X, W2/X, R3/X, W3/X, W3/X, R4/X, WA4/X, WA4/X。 

(a) 现在 假设 从 状态 EE 到 M 的 转换 不 产生 访问 开销 ， 协 议事 务 的 访问 开销 见 表 5-6， 请 计算 采用 
MSI 协议 和 MESI 协议 下 执行 该 访问 序列 分 别 需要 多 少 周期 ? 

(b) 以 字 节 为 单位 ， 利 用 表 5-6 中 的 数据 ， 比 较 MSI 协议 和 MESI 协议 产生 的 流量 ， 假 设 B 为 32 
字 节 。 

假设 一 个 共享 内 存 多 处 理 器 中 ， 处 理 器 /私有 cache 单元 通过 共享 的 单 事务 总 线 连 接 。 基 准 一 致 性 

协议 是 MSI 协议 ， 但 是 我 们 想 知道 增加 一 个 0 状态 让 其 成 为 5.4. 3 节 那 样 的 MOESI 协议 后 ， 性 能 

方面 会 有 哪些 提升 。 我 们 需要 通过 表 5-6 给 出 的 参数 ， 计 算 采 用 MSI 协议 和 MOESI 协议 执行 一 系 

列 访 存 操 作 的 时 间 和 流量 。 处 理 器 访问 操作 序列 的 顺序 如 下 : RI1/X, Wl/X, Wl/X，R2/X， 

W2/X,W2/X, RI/X, WIi/X, Wl/1X, R2/X, W2/X, W2/X, 

(a) 采用 MSI 协议 和 MOESI 协议 执行 这 个 访问 序列 分 别 需 要 多 少 周期 ? 假设 协议 事务 的 访问 开销 
由 表 5-6 给 出 。 

(b) 使 用 表 5-6 中 的 数据 ， 并 且 假 设 B 为 32 字 节 ， 计 算 MSI 协议 和 MOESI 协议 产生 的 流量 分 别 是 
多 少 字 节 。 
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(ec) 比较 5.5 题 中 得 到 的 MESI 协议 的 访问 开销 和 流量 与 本 题 中 的 MOESI 协议 的 访问 开销 和 
流量 。 请 分 析 MOESI 协议 的 优势 在 哪里 ? 通过 什么 方式 可 以 抵消 MOESI 相对 于 MESI 的 
优势 ? 

假设 一 个 共享 内 存 多 处 理 器 中 ， 处 理 器 /私有 cache 单元 通过 共享 的 单 事 务 总 线 连接 。 基 准 一 致 性 

协议 是 MESI 协议 ， 我 们 想 知道 按照 5.4. 4 节 所 描述 的 增加 读 抄 写 (read snarfing) 后 ， 会 带 来 哪些 

性 能 上 的 提高 。 使 用 表 5-6 给 出 的 数据 ， 采 用 MESI 协议 加 上 读 抄 写 ， 请 计算 执行 以 下 一 系列 访问 

操作 的 时 间 和 流量 : R1/X,，R2/X, R3/X, R4/X, W2/X, RI/X, R3/X, W3/X, RI/1X, R2/X, 

(a) 采用 MESI 协议 ， 加 与 不 加 读 抄写 ,计算 执行 访问 序列 分 别 需要 的 周期 数 ， 协 议事 务 的 访问 开 
销 由 表 5-6 给 出 。 

(b) 比较 MESI 协议 ， 加 与 不 加 读 抄写 产生 的 流量 ,利用 表 5-6 中 的 数据 ， 并 且 假 设 B 为 32 字 节 。 

假设 一 个 共享 内 存 多 处 理 器 中 ， 处 理 器 /私有 cache 单元 通过 共享 的 单 事务 总 线 连接 。 基 准 一 致 性 

协议 是 MESI 协议 ， 但 我 们 想 知道 按照 5. 4. 4 节 所 述 利用 基于 更 新 策略 的 一 致 性 协议 后 ， 会 带 来 哪 

些 性 能 上 的 提高 。 请 根据 表 5-6 所 给 出 的 参数 ， 计 算 采 用 MESI 协议 和 基于 更 新 策略 的 协议 执行 以 

下 一 系列 访 存 操作 的 时 间 和 流量 : RI1/X,R2/X, R3/X, R4/X, Wl/X,，R2/X,，R3/X,，W2/X,， 

RI/X, R3/X。 

(a) 采用 基于 使 无 效 化 的 MESI 协议 和 基于 更 新 策略 的 协议 ， 计 算 执 行 访问 序列 需要 的 周期 数 ， 协 
议事 务 的 访问 开销 由 表 5-6 给 出 。 

(b) 比较 基于 使 无 效 化 的 MESI 协议 和 基于 更 新 策略 的 协议 产生 的 流量 。 利 用 表 5-6 中 的 数据 ， 并 
且 假 设 B 为 32 字 节 。 

假设 一 个 共享 内 存 多 处 理 器 中 ， 处 理 器 /私有 cache 单元 通过 共享 的 单 事务 总 线 连接 。 基 准 一 致 性 

协议 是 MESI 协议 ， 但 我 们 想 知 道 按 照 5.4.4 节 增 加 迁移 共享 检测 /优化 后 ， 会 带 来 哪些 性 能 上 的 提 

高 。 请 根据 表 5-6 所 给 出 的 参数 ， 计 算 采 用 MESI 协议 ， 加 或 不 加 迁移 共享 检测 /优化 ， 执 行 如 下 一 

系列 访问 操作 分 别 所 需 的 时 间 和 流量 : RI1/X, Wl1/X, R2/X, W2/X,R3/X, W3/X, R4/X, W4/X。 

(a) 采用 MESI 协议 ， 加 与 不 加 迁移 共享 检测 /优化 ， 计 算 执 行 访问 序列 分 别 需 要 的 周期 数 ， 协 议 
事务 的 访问 开销 由 表 5-6 给 出 。 

(b) 比较 MESI 协 议 ， 加 与 不 加 迁移 共享 检测 /优化 产生 的 流量 。 利 用 表 5-6 中 的 数据 ， 并 且 假 设 B 
为 32 字 节 。 

正如 我 们 在 5. 4. 5 节 看 到 的 ， 稳 定 状态 〈 比 如 ，MSI 协议 中 的 状态 M、S 和 1) 是 无 法 解决 数据 竞 

争 问题 的 。 图 5-15 向 MSI 协议 中 增加 了 瞬时 状态 来 作为 从 状态 S 到 M 的 中 间 状 态 ， 但 还 是 会 出 

现 其 他 数据 竞争 。 请 增加 新 的 瞬时 状态 以 及 对 应 的 状态 转换 ， 保 证 从 状态 I 到 M 的 正确 转换 。 

考虑 由 3 个 处 理 器 /cache 单元 组 成 的 共享 内 存 多 处 理 器 系统 ， 通 过 MSI 协议 维护 cache 一 致 性 。 

表 5-7 给 出 了 3 个 处 理 器 对 同一 块 中 不 同 变量 (A，B，C) 的 访问 序列 。 
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(a) 判断 失效 是 冷 失效 、 真 共享 失效 还 是 假 共享 失效 。 
(b) 以 上 失效 中 ， 哪 个 失效 可 以 忽略 而 不 会 影响 程序 的 正确 性 ? 


(ec) 利用 表 5-6 中 的 参数 ， 并 假设 块 大 小 为 32 字 节 ， 计 算 该 序列 导致 的 必要 传输 所 占 的 比例 。 
考虑 由 3 个 处 理 器 /cache 单元 组 成 的 共享 内 存 多 处 理 器 系统 ， 通 过 MSI 协议 维护 cache 一 致 性 ， 私 有 
cache 采取 直接 映射 。 表 5-8 给 出 了 3 个 处 理 器 对 4 个 变量 (A、B、C 和 D) 的 访问 序列 ， 其 中 A、B 
和 C 属于 同一 块 ， 而 D 属于 另 一 个 块 。 两 个 块 被 映射 到 cache 的 同一 项 ， 并 且 cache 初始 时 是 满 的 。 


表 5-8 



























































|o| 站 | 路 | 内 | 大 | 已 | 一 


(a) 判断 失效 是 冷 失 效 、 替 换 失效 、 真 共享 失效 还 是 假 共享 失效 。 

(b) 以 上 失效 中 ， 哪 个 失效 可 以 忽略 而 不 会 影响 程序 的 正确 性 ? 

在 5.4.7 节 中 ,我 们 介绍 了 旁 路 转换 缓冲 (TLB) 一 致 性 的 重要 概念 。 当 虚实 页 转换 的 映射 发 生 
改变 时 ,我 们 想 计 算 在 多 处 理 器 系统 中 维护 所 有 TLB 一 致 性 所 需要 的 时 间 。 假设 有 4 个 TLB 包含 
某 个 页 的 转换 信息 。 此 外 ,假设 调用 缺 页 异常 处 理 程序 需要 1000 个 周期 ， 处 理 器 间 发 送 中 断 需要 
100 个 周期 ， 在 单个 处 理 器 上 通过 软件 执行 一 个 TLB 项 shootdown 操作 需要 200 个 周期 ， 无 效 掉 某 
个 物理 页 在 每 个 cache 中 包含 的 块 需要 20 个 周期 ， 每 个 处 理 器 在 TLB 项 和 cache 中 无 效 块 信息 都 
被 移 除 后 ,需要 给 执行 缺 页 异常 处 理 程序 的 处 理 器 发 送 确 认 信息 ， 这 个 过 程 需 要 100 个 周期 。 请 
根据 上 述 参数 计算 执行 TLB shootdown 操作 所 需要 的 时 间 。 

考虑 一 种 共享 内 存 多 处 理 器 系统 的 可 扩展 实现 ， 系 统 包含 多 个 节点 ， 每 个 节点 包括 一 个 处 理 器 、 
一 个 私有 cache 以 及 一 部 分 内 存 ， 如 图 5-19 所 示 。 通 过 目录 协议 维护 cache 一 致 性 ， 目 录 对 每 个 
内 存 块 都 维护 一 个 存在 标志 向 量 ， 来 记录 哪些 节点 有 该 块 的 备份 ， 如 图 5-20 所 示 。 在 主 节点 和 远 
程 节 点 处 理 目录 请 求 的 时 间 为 50 个 周期 。 此 外 ， 表 5-9 给 出 了 所 有 一 致 性 引起 的 请 求 和 响应 所 需 
的 延 时 以 及 流量 ， 块 大 小 为 32 字 节 。 


表 5-9 协议 动作 的 耗 时 与 流量 B 是 块 大 小 












































请 求 类 型 执行 协议 动作 所 需 的 时 间 流量 
读 命中 1 个 时 钟 周期 N/A 
写 命中 1 个 时 钟 周期 N/A 
BusRd 20 个 时 钟 周期 6 字 节 
RemRd 20 个 时 钟 周 期 6 字 节 
RdAck 40 个 时 钟 周期 ” 6 字 节 
Flush 100 个 时 钟 周期 6 字 节 +B 
InvRd 20 个 时 钟 周 期 6 字 节 
InvAck 20 个 时 钟 周期 6 字 节 














UpgrAck 20 个 时 钟 周期 6 字 节 
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(a) 当主 节点 与 请 求 节点 是 同一 个 节点 ,并 且 内 存 备份 是 干净 的 ,计算 处 理 cache 失效 需要 的 周 
期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 ) 。 

(b) 当主 节点 与 请 求 节点 是 同一 个 节点 ， 并 且 内 存 备份 是 脏 的， 计算 处 理 cache 失效 需要 的 周期 
数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

(c) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ; 并 且 内 存 备 份 是 脏 的 ， 计 算 处 理 cache 失效 需要 的 周 
期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 ) 。 

(d) 当主 节点 与 请 求 节 点 不 是 同一 个 节点 ， 远 程 节 点 与 主 节 点 是 同一 个 节点 ， 并 且 内 存 备份 是 脏 
的 时 ， 计 算 处 理 的 cache 失效 的 周期 数 ， 并 计算 该 一 致 性 事 备 产生 的 流量 ( 以 字 节 为 单位 ) 。 

(e) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 远程 节点 与 主 节点 也 不 是 同一 节点 (当然 ， 远 程 节 点 
与 请 求 节 点 也 不 是 同一 节点 ) ， 并 且 内 存 备份 是 脏 的 ， 计 算 处 理 cache 失效 需要 的 周期 数 ， 并 
且 计 算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

采用 图 5-21 中 的 基于 目录 策略 的 协议 ， 但 是 用 表 5-9 中 给 出 的 延迟 和 流量 参数 ， 并 且 假 设 块 大 小 

为 32 字 节 。 

(a) 当主 节点 与 请 求 节点 是 同一 个 节点 ， 并 且 内 存 备份 是 干净 的 ， 计算 处 理 cache 失效 需要 的 周 
期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 ) 。 

(b) 当主 节点 与 请 求 节点 是 同一 个 节点 ,并 且 内 存 备份 是 脏 的 ， 计 算 处 理 cache 失效 需要 的 周期 
数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

(e) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 并 且 内 存 备 份 是 干净 的 ， 计 算 处 理 cache 失效 需要 的 
周期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

(d) 当主 节点 与 请 求 节 点 不 是 同一 个 节点 ， 远 程 节点 与 主 节 点 是 同一 个 节点 ， 并 且 内 存 备份 是 脏 的 
时 ， 计 算 处 理 cache 失效 的 周期 数 ， 并 且 计算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

(e) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 远 程 节 点 与 主 节点 也 不 是 同一 节点 〈 显 然 ， 远 程 节点 
与 请 求 节点 也 不 是 同一 节点 ) ， 并 且 内 存 备份 是 脏 的 ， 计 算 处 理 cache 失效 需要 的 周期 数 ， 并 
且 计算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 )。 

(f) 在 哪 种 情况 下 延迟 与 流量 同 5. 14 题 不 同 ? | 

考虑 一 种 共享 内 存 多 处 理 器 系统 的 可 扩展 实现 ， 系 统 有 若干 节点 ， 每 个 节点 包括 一 个 处 理 器 、 一 

个 私有 cache 以 及 一 部 分 内 存 ， 如 图 5-19 所 示 。 系 统 通过 目录 协议 维护 cache 一 致 性 ， 目 录 对 每 

个 内 存 块 都 维护 一 个 存在 标志 向 量 ， 用 于 记录 哪些 节点 有 该 块 的 备份 ， 如 图 5-20 所 示 。 在 主 节点 

和 远程 节点 处 理 目 录 请 求 的 时 间 为 50 个 周期 。 此 外 ， 表 5-9 给 出 了 所 有 一 致 性 引起 的 请 求 和 响应 

的 延 时 以 及 流量 , 块 大 小 为 32 字 节 。 

(a) 当主 节点 与 请 求 节点 是 同一 个 节点 ， 并 且 内 存 中 备份 是 唯一 的 ， 计 算 写 一 个 处 在 共享 态 的 块 
需要 的 周期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 ) 。 

(b) 当主 节点 与 请 求 节点 是 同一 个 节点 ， 并 且 块 的 共享 数 为 4 时 ,计算 写 一 个 处 在 共享 态 的 块 需 
要 的 周期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 (以 字 节 为 单位 ) 。 

(ce) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 并 且 内 存 中 备份 是 唯一 的 ， 计 算 写 一 个 处 在 共享 态 的 
块 需要 的 周期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 〈 以 字 节 为 单位 ) 。 

(d) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 远 程 节点 与 主 节 点 是 同一 个 节点 ， 并 且 内 存 中 的 块 备 
份 是 脏 的 ， 计 算 写 一 个 处 在 无 效 态 的 块 需要 的 周期 数 ， 并 且 计 算 该 一 致 性 事务 产生 的 流量 
(以 字 节 为 单位 ) 。 

(e) 当主 节点 与 请 求 节点 不 是 同一 个 节点 ， 远 程 节 点 与 主 节 点 也 不 是 同一 个 节点 ， 并 且 内 存 中 的 
块 备份 是 脏 的 ， 计 算 写 一 个 处 在 无 效 态 的 块 需要 的 周期 数 ， 并 且 计算 该 一 致 性 事务 产生 的 流 
量 (以 字 节 为 单位 ) 。 

在 针对 一 个 包括 128 个 处 理 器 的 片上 多 处 理 器 系统 进行 设计 探索 时 ， 架 构 设 计 团 队 根据 图 5-23 采 

取 分 层 组 织 方式 。 每 个 集群 由 8 个 处 理 器 组 成 ， 每 个 处 理 器 有 自己 的 私有 cache， 并 且 每 个 集群 有 

一 个 共享 cache 作为 二 级 cache。 考 虑 采用 下 列 多 种 方法 维护 集群 内 和 集群 间 一 致 性 ， 假 定 块 大 小 
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为 32 字 节 ,请 计算 维护 二 级 cache 和 存储 一 致 性 所 需要 的 目录 信息 的 开销 : 

(a) 每 个 集群 内 部 和 集群 间 都 采用 基于 存在 标志 目录 协议 。 

(b) 每 个 集群 内 采用 有 两 个 指针 的 有 限 指针 目录 协议 ,并 且 在 集群 间 利用 粗 向 量 目录 协议 将 4 个 
集群 分 为 一 组 。 

(c) 集群 内 部 采用 如 图 5-22 所 示 的 以 cache 为 中 心 的 目录 协议 ,集群 间 采 用 有 4 个 指针 的 有 限 指 
针 协 议 。 

考虑 如 图 5-22 的 以 cache 为 中 心 的 目录 协议 。 如 果 有 NN 个 拷贝 ,请 计算 执行 一 次 使 无 效 化 的 时 

间 ， 假 设 一 个 请 求 和 一 个 响应 需要 天 个 周期 。 在 同样 的 假设 下 ， 如 果 采 用 存在 标志 向 量 协议 ， 花 

费 的 周期 又 是 多 少 ? 

考虑 矩阵 加 法 〈4 =B+C) 的 并 行 实现 ， 和 矩阵 大 小 为 1024 x 1024， 每 个 元 素 占 8 字 节 。 页 大 小 是 

4K 字 节 。 共 享 内 存 多 处 理 器 系统 有 16 个 节点 ,采用 cc-NUMA 组 织 方式 ， 每 个 节点 包含 一 个 处 理 

器 、 一 个 私有 cache 以 及 一 部 分 内 存 ，cache 块 大 小 为 32 字 节 。 和 矩阵 在 内 存 中 按 行 优先 存储 ( 连 

续 的 行 在 内 存 空间 中 是 连续 存放 的 ) ，4, 召 ，C 矩阵 是 逐个 连续 存放 的 。 并 行 算法 如 下 : 结果 和 撼 

阵 4 的 前 1024716 行 的 元 素 由 第 一 个 节点 计算 ， 接 下 来 的 1024716 行 元 素 由 第 二 个 节点 计算 ， 依 

此 类 推 。 

(a) 假设 页 布局 采用 静态 轮 询 算法 ， 请 计算 每 个 节点 访问 本 地 cache 和 远程 cache 次 数 的 比 为 
多 少 ? 

(b) 假设 采用 页 迁移 策略 ， 迁 移 开 销 同 16 个 远程 访问 开销 一 样 ， 当 远程 访问 cache 的 开销 超过 页 
迁移 开销 的 2 倍 时 ， 就 会 进行 页 迁移 。 请 计算 每 个 节点 访问 本 地 cache 和 远程 cache 次 数 的 比 
为 多 少 ? 
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6.1 概述 


互连网 络 是 计算 机 系统 中 的 重要 组 成 部 分 。 设 计 高 性 能 并 行 计 算 机 的 关键 是 消除 串 行 瓶 
颈 ， 因 为 这 些 串 行 瓶 颈 会 在 多 个 级 别 上 削弱 并 行 机 制 的 作用 。 跨 处 理 器 核 的 指令 级 和 线程 级 并 
行 结 构 ， 需 要 一 套 可 以 通过 深层 次 的 cache 高 速 地 将 指令 和 数据 供给 处 理 器 的 存储 系统 。 在 这 
种 环境 下 ， 假 定 cache 失效 的 处 理 需 要 花费 100 个 时 钟 周期 ,那么 即使 只 是 1% 的 cache 失效 
率 ， 也 会 有 一 半 的 执行 时 间 花 费 在 从 内 存 到 处 理 器 的 指令 和 数据 传输 上 。 因 此 ， 为 内 存 和 
cache 之 间 的 指令 和 数据 传输 提供 尽 可 能 短 的 延迟 是 极其 重要 的 。 

除了 延迟 之 外 ,提供 足够 大 的 存储 带宽 也 是 非常 重要 的 。 如 果 存 储 带宽 不 足 ， 那 么 内 存 请 
求 的 竞争 会 导致 访 存 延 迟 加 大 ， 进 而 又 会 影响 指令 的 执行 时 间 和 吞吐 量 。 举 个 例子 ， 假 设 一 个 
非 阻塞 cache 同时 支持 W 个 并 发 miss 请 求 ， 如 果 cache 和 内 存 之 间 的 总 线 每 了 时 钟 周 期 可 以 传 
输 一 个 cache 块 ， 那 么 处 理 V 个 cache 失效 需要 花费 NxT 个 时 钟 周期 ， 而 如 果 总 线 可 以 并 行 地 
传输 NN 个 cache 块 ， 那 么 处 理 时 间 将 降低 到 了 个 时 钟 周期 。 

通常 情况 下 ， 互 连 网 络 的 作用 是 在 计算 机 各 个 组 件 之 间 传 输 信息 ， 特 殊 情 况 也 包括 在 存储 
器 和 处 理 器 之 间 传 输 数 据 。 对 于 现在 的 并 行 计算 机 ， 不 管 是 单 芯片 的 CMP 系统 还 是 多 机 构成 
的 大 规模 并 行 计 算 机 系统 ， 互 连 网 络 都 是 非常 重要 的 ， 在 这 些 系统 中 ， 数 据 从 内 存 传 输 到 处 理 
器 的 过 程 中 如 何 实现 低 延 迟 和 高 带宽 始终 是 一 个 非常 关键 的 问题 。 

图 6-1 显示 了 两 个 并 行 计算 机 系统 。 在 图 6-1a 中 ， 一 个 单 芯片 多 处 理 器 (CMP) 上 包含 多 
个 处 理 器 核 ， 处 理 器 核 通过 私有 的 一 级 cache 连接 到 一 个 共享 的 二 级 cache。 为 了 给 处 理 器 核 提 
供 可 扩展 的 访 存 带宽 ， 共 享 cache 分 为 多 个 体 (bank) 组 织 ， 每 个 bank 通过 端口 连接 到 互连网 
络 。 为 了 避免 传输 瓶颈 ， 互 连 网 络 的 带宽 必须 和 共享 cache 的 访问 带宽 相 匹 配 。 在 图 6-1b 中 ， 
每 个 CMP 作为 更 大 计算 机 系统 的 一 个 计算 节点 ， 再 通过 互连网 络 把 各 个 节点 连接 到 内 存 模块 。 
和 前 面 的 共享 cache 设计 类 似 ， 为 了 给 这 些 CMP 节点 提供 足够 的 带宽 ， 内 存 也 划分 出 多 个 模块 
来 组 织 ， 而 且 互 连 网 络 的 带宽 也 同样 需要 和 内 存 所 提供 的 访问 带宽 相 匹 配 。 





a ) 含 共 享 cache 的 CMP 系 统 b ) CMP 组 成 的 并 行 计算 机 系统 
图 6-1 多 处 理 器 系统 中 的 片上 和 系统 互连网 络 
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图 6-1a 所 示 的 网 络 结 构 通常 叫 作 片上 网 络 (Network on Chip，NoC 或 者 On- Chip Network， 
OCN) ， 而 图 6-1b 所 示 的 通常 称 为 系统 区 域 网 络 (System Area Network，SAN) 通常 用 它 来 将 几 
个 处 理 器 芯片 或 者 板 级 计算 系统 互 连 形成 大 规模 的 并 行 计算 机 系统 。 互 连 网 络 中 的 一 种 极端 例 
子 是 全 互连网 络 ， 比 如 ,在 OCN 中 ,通过 直接 的 点 对 点 连接 将 每 个 一 级 cache 和 二 级 cache 的 
每 个 端口 互 连 ， 就 形成 了 一 个 全 互连网 络 ， 这 种 网 络 可 以 为 OCN 提供 最 大 可 能 的 访 存 带宽 。 
不 过 这 种 设计 是 有 代价 的 ， 它 需要 消耗 大 量 的 片上 资源 ， 最 终 可 能 导致 不 得 不 缩小 一 级 cache、 
二 级 cache 的 容量 ， 并 且 减 少 处 理 器 核 的 数量 。 因 此 ， 可 以 看 到 ， 片 上 资源 的 大 小 在 很 大 程度 
上 限制 了 互连网 络 的 延迟 和 带宽 。 这 一 结论 同样 适用 于 SAN 场合 ， 因 此 ， 全 互连网 络 是 极其 
昂贵 的 ， 如 果 从 成 本 的 角度 来 考虑 ， 这 是 一 种 不 具备 可 扩展 性 的 互 连 结构 。 

另 一 个 重要 的 限制 是 功 耗 。CMP 系统 上 通常 都 有 一 定 的 功 耗 限制 ， 这 会 制约 片上 结构 的 
设计 ， 包括 互连网 络 。 因 此 ， 互 连 网 络 的 设计 目标 是 通过 一 定 的 成 本 (比如 硅 面 积 ) 和 功 耗 
限制 实现 尽 可 能 的 低 延 迟 和 高 带宽 。 

在 这 一 章 中 ， 我 们 将 不 会 探讨 将 多 个 计算 机 通过 局 域 网 (LAN) 或 者 广域网 (WAN) 互 
连 的 问题 。 虽 然 它 所 面 对 的 设计 考虑 是 相似 的 ， 但 是 权衡 考虑 的 标准 和 实际 可 行 的 方法 之 间 还 
是 有 很 大 的 差异 ， 因 为 在 这 类 系统 中 ， 延 迟 往往 不 是 最 关键 的 考虑 因素 。 

本 章 的 主要 内 容 如 下 

。 6. 2 节 主 要 介绍 互连网 络 的 基本 设计 概念 ， 互 连 网 络 的 功能 和 结构 ， 拓 扑 结构 的 作用 ， 

交换 策略 以 及 路 由 算法 。 

e 6.3 节 主 要 介绍 交换 策略 以 及 它们 对 延迟 和 带宽 的 影响 。 本 节 将 详细 介绍 4 种 不 同 的 交 

换 策 略 : 电路 交换 ， 存 储 转发 ， 直 通 式 ， 虫 洞 交换 。 

e 6.4 节 主要 介绍 不 同 的 互连网 络 拓扑 结构 以 及 各 自 的 延迟 和 带宽 特性 。 

e 6.5 节 主 要 介绍 不 同 拓扑 结构 的 路 由 算法 ， 包 括 死 锁 避 免 技术 和 自 适 应 路 由 算法 。 

e 6.6 节 主 要 介绍 不 同 缓冲 区 选择 下 的 互连网 络 交 换 结 构 。 


6.2 互连网 络 的 设计 空间 

互连网 络 的 作用 是 将 一 定数 量 的 计算 节点 互相 连接 起 来 ， 使 得 这 些 不 同 资源 节点 之 间 可 以 
互相 传输 信息 ， 网 络 中 的 节点 可 能 是 cache 模块 、 存 储 模块 、 计 算 机 主板 或 者 是 片上 多 处 理 器 。 
6. 2. 1 设计 概念 综述 


首先 介绍 一 些 互连网 络 设 计 中 的 基本 概念 。 先 从 一 个 具体 的 互 连 结构 
(mesh) 出 发 ， 如 图 6-2 所 示 。 
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图 中 网 格 将 16 个 交换 单元 (也 称 交换 器 或 交换 机 ) 以 4x4 的 拓扑 结构 连接 起 来 ， 每 一 个 
节点 通过 一 个 网 络 接口 和 交换 器 连接 ， 如 图 6-2 的 右上 部 分 所 示 。 交 换 器 通过 双向 的 链 路 和 它 
周围 东西 南北 四 个 方向 上 的 邻居 连接 起 来 。 交 换 器 通常 有 多 个 输入 和 输出 ， 它 最 简单 的 作用 就 
是 将 一 个 输入 和 输出 连接 起 来 。 网 络 中 的 链 路 本 质 上 是 一 些 电缆 或 者 光纤 ， 用 于 在 一 个 交换 器 
的 输出 端口 和 另 一 个 交换 器 的 输入 端口 之 间 传 输 数 字 信息 。 

链 路 

链 路 主要 用 来 连接 不 同 交换 机 和 网 络 接 口 的 输出 端口 和 输入 端口 ， 链 路 的 宽度 是 在 一 个 时 
钟 周期 中 可 以 并 行 传输 的 比特 位 数 。 因 此 链 路 的 宽度 和 一 个 时 钟 周期 的 长 度 决定 了 链 路 的 带 
宽 : 假如 宽度 为 w， 一 个 时 钟 周期 的 长 度 为 :， 那 么 带宽 为 w/t 比特 每 时 间 单 元 。 链 路 的 宽度 主 
要 受 OCN 占用 的 芯片 面积 或 者 SAN 中 的 电缆 布线 费用 的 限制 ， 而 链 路 的 时 钟 周期 长 度 方面 ， 
需要 区 分 是 端口 间 的 同步 还 是 异步 传输 。 在 同步 传输 模式 下 ， 链 路 和 交换 器 使 用 相同 的 时 钟 ， 
其 时 钟 周期 长 度 是 由 最 慢 的 组 件 〈 比如 交换 器 ) 决定 的 。 与 之 相反 ， 在 异步 通信 模式 下 ， 不 
同 的 组 件 可 以 有 不 同 的 时 钟 周期 ， 通 过 握手 协议 来 进行 同步 。 

交换 单元 

交换 单元 ( switch element， 简 称 switch ) 的 作用 是 在 输入 端口 和 输出 端口 之 间 建 立 连接 ， 
并 且 在 连接 建立 之 后 负责 两 个 端口 之 间 的 信息 传输 ， 交 换 器 一 般 具 有 确定 数量 的 输入 和 输出 端 
口 , 且 二 者 数量 一 般 相 同 。 带 有 nn 个 输入 和 个 输出 的 交换 器 一 般 称 为 nxn 交换 器 ,其 交换 
度数 (switch degree) 为 n。 因 为 多 个 输入 端口 可 能 都 需要 往 同 一 个 输出 端口 传输 数据 ， 因 此 可 
能 会 出 现 针对 某 个 特定 输入 端口 的 竞争 情况 。 为 了 解决 竞争 问题 ， 交 换 器 通常 具有 缓存 信息 的 
能 力 ， 可 能 实现 在 输入 端口 ， 也 可 能 实现 在 输出 端口 ， 或 者 两 端 都 能 缓存 。 图 6-2 中 ， 不 考虑 
连接 自身 节点 的 输入 和 输出 端口 ， 这 个 4 x4 网 格 就 是 由 度数 是 4 的 交换 器 组 成 的 。 输 入 端口 
和 它们 的 缓冲 区 通常 是 通过 一 个 交叉 开关 连接 到 输出 端口 和 对 应 的 缓冲 区 。 在 后 面 的 6.4 节 
中 ,我 们 讨论 到 网 络 的 拓扑 结构 的 时 候 会 再 介绍 交叉 开关 的 设计 。 

基本 的 互连网 络 功能 . 

从 源 节 点 传输 到 目的 节点 的 单元 信息 称 为 消息 ,消息 的 大 小 可 能 从 单字 长 到 任意 字 长 不 
等 。 单 字 长 消息 的 典型 例子 是 共享 内 存 的 系统 中 写 穿 透 cache 发 送 的 更 新 内 存 的 请 求 。 在 一 些 
并 行 的 程序 模块 中 ， 比 如 第 5 章 讨论 的 信息 传递 机 制 中 ， 节 点 之 间 可 以 交换 任意 大 小 的 消息 。 

在 较 高 级 别 的 协议 层 或 者 并 行程 序 模块 之 间 的 传输 需求 可 能 需要 不 同类 型 的 信息 传输 机 
制 ， 最 简单 的 情况 是 请 求 节点 向 单个 目的 节点 发 送 消息 ， 即 单 播 请 求 ， 此 外 ， 请 求 节点 向 一 组 
目的 节点 发 送 消息 的 情形 称 为 多 播 请 求 ， 而 如 果 是 向 所 有 节点 发 送 消息 的 话 ， 则 称 为 广播 请 
求 。 在 这 些 消 息 请 求 中 ， 有 些 是 需要 应 答 的 ， 比 如 从 cache 模块 向 内 存 模块 发 送 一 个 读 请 求 ， 
会 期 望 有 一 个 cache 块 的 返回 。 因 此 ， 请 求 有 时 候 需 要 附带 上 请 求 节 点 的 标识 ID 和 目的 节点 的 
标识 卫 ， 以 便 目 的 节点 在 收 到 请 求 后 可 以 向 请 求 节 点 返回 应 答 。 

如 果 任 意 大 小 的 消息 不 加 限制 地 发 送 到 网 路 中 ,那么 它们 可 能 在 很 长 一 段 时 间 内 都 会 完全 
占用 掉 路 由 器 资源 ， 这 样 会 导致 其 他 消息 传输 的 延迟 。 因 此 通常 情况 下 ， 我 们 将 消息 分 解 成 固 
定 大 小 的 数据 包 ， 这些 数据 包 的 大 小 反映 了 通常 情况 下 消息 的 大 小 。 比 如 把 数据 从 内 存 取 到 
cache 层 的 请 求 和 应 答 ， 如 果 它 们 是 常见 消息 的 话 ， 那 么 数据 包 大 小 应 该 能 容纳 一 个 简单 请 求 
或 者 一 个 cache 块 。 数 据 包 的 结构 如 图 6-3 所 示 ， 相 比 于 intemet 协议 IN 中 的 消息 协议 大 体 上 
比较 简单 。 之 前 讲 过 ，IN 的 主要 任务 就 是 将 数据 包 从 源 地 址 A 传输 到 目的 地 址 B， 网 络 至 少 需 
要 知道 如 何 通过 一 系列 的 交换 器 ， 为 数据 包 建 立 路 由 。 在 消息 协议 中 ， 路 由 信息 被 保存 在 头 部 
区 域 ， 其 他 需要 发 送 的 信息 ， 比 如 请 求 和 应 答 类 型 ， 将 会 保存 在 头 部 或 者 尾部 区 域 。 由 于 辐射 
可 能 造成 的 软 错误 或 者 永久 性 交换 / 链 路 失效 造成 的 硬 错误 等 原因 ， 数 据 包 可 能 出 现 内 容 丢 失 
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或 者 被 自 改 的 情况 ， 所 以 还 需要 在 IN 协议 级 别 或 者 更 高 层次 级 别 实施 预防 错误 的 保护 机 制 。 
假如 在 互 连 层 级 别 来 实施 保护 ， 数 据 包 必须 包含 错误 代码 区 域 ， 用 于 错误 的 检测 和 修正 。 除 了 
上 述 内 容 之 外 ， 剩 下 的 需要 在 源 和 目的 节点 进行 传输 的 信息 ( 比如 在 cache 块 中 的 数据 ) 不 是 
互连网 络 实现 自身 功能 所 关注 的 内 容 ， 互 连 网 络 只 需 将 数据 包 从 源 节点 传输 到 目的 节点 。 所 有 
未 被 互连网 络 解析 的 信息 将 被 保存 在 数据 包 的 净 负 荷 区 域 ， 这 些 内 容 是 上 层 协 议 关 心 的 。 暴 露 
给 IN 的 信息 一 般 称 为 数据 包 信 封 ， 它 包含 头 部 信息 、 错 误 代码 信息 和 尾部 信息 。 


图 6-3 数据 包 构 成 


接 下 来 我 们 开始 描述 在 消息 从 图 6-2 中 网 格 的 节点 A 传输 到 节点 B 的 过 程 中 到 底 发 生 了 什 
么 , 并 且 提 出 一 些 设计 问题 供 后 续 讨 论 。 被 传输 消息 首先 被 分 割 成 数据 包 序列 ， 这 个 分 割 是 由 
更 高 层 协 议 完成 的 ， 并 且 网 络 接口 通过 一 系列 软 硬 件 结合 机 制 提供 支持 ; 这些 数据 包 先 被 保存 
在 缓存 区 ， 随 后 逐个 被 注入 IN 中 。 

第 一 个 需要 考虑 的 设计 问题 是 决定 数据 包 是 如 何在 IN 中 路 由 的 ， 这 由 交换 策略 决定 。 最 
简单 的 策略 是 只 要 有 数据 包 从 节点 A 传输 到 节点 B， 就 通过 网 络 建立 一 个 路 由 ， 这 种 方式 称 为 
电路 交换 策略 ， 这 种 策略 的 优点 是 数据 包 从 发 送 方 传输 到 接收 方 的 时 候 不 会 被 干扰 。 在 电路 交 
换 策略 中 ， 数 据 包 不 需要 携带 路 由 信息 ， 因 为 在 数据 包 传送 之 前 ， 路 由 已 经 建立 好 ; 

电路 交换 策略 避免 了 在 每 次 交换 时 的 路 由 开销 ， 缺 点 是 在 整个 数据 包 传输 到 目的 节点 之 
前 ， 其 他 的 数据 包 无 法 获得 该 通信 路 径 上 的 任何 网 络 资源 ， 这 可 能 会 降低 其 他 数据 包 传输 的 可 
用 带宽 。 而 且 数 据 包 越 大 ， 在 同一 个 路 由 上 等 待 资源 的 其 他 数据 包 就 会 越 多 。 

另 一 个 方式 是 数据 包 交 换 。 在 数据 包 交换 策略 中 ， 数 据 包 从 一 个 交换 器 传输 到 另 一 个 交换 
器 ， 并 且 只 在 需要 的 时 候 占据 一 个 交换 器 资源 。 在 本 章 的 后 续 内 容 中 ,我 们 将 详细 回顾 数据 包 
交换 策略 的 不 同 选项 ， 以 及 这 些 选 项 给 延迟 和 带宽 带 来 的 影响 。 

和 交换 算法 密切 相关 的 一 个 问题 是 路 由 算法 。 假 设 数据 包 交 换 以 及 路 由 决策 功能 都 是 分 布 
在 各 个 交换 器 上 的 。 在 图 6-2 中 ,被 标记 的 路 由 首先 经 过 XX 轴 (水 平方 向 ) 的 正 向 ， 然 后 经 过 
Y 轴 (垂直 方向 ) 的 正 向 传输 数据 包 ， 这 种 路 由 算法 称 为 维度 优先 路 由 ， 它 受 网 络 拓扑 结构 的 
影响 〈 在 这 个 例子 中 ,是 网 格 拓扑 结构 )。 拓扑 结构 首先 会 影响 IN 的 延迟 、 带 宽 和 成 本 等 。 在 
6.4 节 中 ,我 们 会 详细 地 介绍 一 些 网 络 拓扑 结构 和 它们 的 路 由 算法 。 

数据 包 交 换 策略 使 得 多 个 数据 包 传输 可 以 同时 进行 ， 它 们 可 以 根据 路 由 来 共享 一 些 相同 的 
链 路 和 交换 器 资源 。 之 所 以 能 做 到 这 一 点 ， 是 由 于 分 配给 某 个 数据 包 的 资源 在 整个 数据 包 离开 
交换 器 时 会 被 回收 。 如 果 一 个 数据 包 被 分 配 到 某 个 交换 器 上 ， 而 这 个 交换 器 正在 路 由 另 一 个 数 
据 包 的 话 ， 就 会 出 现 冲突 ， 这 时 需要 设计 相应 的 策略 来 解决 这 种 冲突 ， 这 种 策略 称 为 流 控 ， 它 
决定 何 时 将 数据 包 从 一 个 交换 器 传输 到 另 一 个 交换 器 ， 或 者 从 一 个 交换 器 传输 到 一 个 网 络 
接口 。 


6.2.2 延迟 和 带宽 模型 


为 了 研究 IN 的 不 同 设计 方法 以 及 不 同 的 方法 对 性 能 和 带宽 的 影响 ;现在 介绍 二 个 简单 而 
实用 的 分 析 模 型 ， 它 可 以 分 析 在 IN 中 发 送 数 据 包 时 ， 端 对 端的 延迟 和 所 消耗 的 带宽 。 我 们 先 
从 最 简单 的 模型 开始 ， 随 着 覆盖 的 设计 空间 维度 的 增加 ， 比 如 网 络 拓扑 结构 、 路 由 算法 、 交 换 
策略 流 控制 策略 等 ， 这 个 模型 会 变 得 更 加 复杂 。 
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端 对 端的 数据 包 延 迟 模型 

考虑 一 个 数据 包 从 发 送 节点 到 接收 节点 的 传输 ， 假 如 数据 包 在 源 节点 的 缓冲 区 中 已 经 就 绪 
等 竺 传输， 那么 端 对 端的 延迟 就 是 从 现在 开始 直到 整个 数据 包 通 过 IN 传输 完成 ， 并 且 在 接收 
节点 的 缓冲 区 接收 到 这 个 数据 包 。 发 送 端 节点 的 数据 包 需 要 准备 好 ， 数 据 包 的 头 部 、 尾 部 以 及 
可 能 的 错误 代码 会 被 加 到 有 效 载荷 区 中 ， 如 图 6-3 所 示 那 样 。 假 如 数据 包 的 有 效 载荷 包括 NN， 
个 比特 位 ， 而 头 部 ， 尾 部 和 错误 代码 所 需 的 比特 位 数 为 总 共 为 WE (这 里 的 EE 代表 信封 ，Enve- 


lope)，, 


那么 需要 传输 的 所 有 比特 位 数 为 Ne + Ni。 


当 数 据 包 在 发 送 端 完成 格式 打包 后 ， 数 据 包 会 通过 IN 以 流水 线 的 形式 发 送 。 先 假设 在 所 
有 传输 的 数据 包 中 没有 出 现 冲突 ， 正 如 在 电路 交换 中 那样 ， 假 如 事先 已 经 建立 好 路 由 ， 并 且 假 
定 链 路 在 一 个 周期 可 以 传输 一 个 比特 位 ， 那 么 将 整个 数据 包 注 和 IN 中 需要 N + Nes 个 时 钟 周 
期 。 图 6-4a 显示 了 这 个 传输 流水 线 的 结构 ， 图 6-4b 表明 了 在 没有 其 他 数据 包 传输 干扰 的 情况 
下 ,传输 过 程 中 不 同 的 延迟 组 成 部 分 ， 所 有 延迟 组 成 的 总 和 称 为 印 载 端 对 端 数 据 包 延迟 。 


owt he se | 


发 送 端 接收 端 






飞行 时 间 
( 包括 交换 时 间 ) 


端 对 端 数据 包 延 迟 
b ) 


图 6-4 ”从 源 节点 发 送 数据 包 到 目的 节点 的 端 对 端 延 迟 模型 


下 面 详细 分 析 延 迟 的 不 同 组 成 部 分 。 


发 送 端 开销 。 这 部 分 延迟 指 的 是 发 送 端 数据 包 的 准备 工作 ， 包 括 数据 包 信 封 的 生成 ， 
以 及 将 数据 包 注 入 网络 接口 缓冲 区 。 这 部 分 延迟 通常 比较 固定 ， 随 着 数据 包 的 增 大 ， 
它 对 端 对 端 整 体 延迟 的 影响 会 相应 变 小 。 

飞行 时 间 。 这 部 分 时 间 是 指 从 发 射 端 发 送 一 个 比特 到 接收 端 所 需要 的 时 间 下 界 。 在 电 
路 交换 策略 中 ， 路 由 事先 已 经 建立 好 ， 所 以 单个 比特 可 以 流水 的 形式 通过 路 由 上 的 链 
路 和 交换 器 到 达 接 收 端 ， 飞 行 的 时 间 由 图 6-4a 中 的 逻辑 传输 流水 线 的 长 度 所 决定 ， 它 
取决 于 多 个 因素 ， 包 括 网 络 的 拓扑 结构 、 链 路 的 数量 、 数 据 包 需 要 经 过 的 交换 器 的 个 
数 ， 以 及 交换 器 的 周期 执行 时 间 和 复杂 性 等 。 而 在 数据 包 交 换 策略 中 ， 还 会 受到 交换 
时 间 的 影响 ， 比 如 交换 策略 所 需 开 销 的 不 同 也 会 影响 最 终 的 飞行 时 间 。 

传输 时 间 。 这 部 分 延迟 是 指 当 第 一 个 比特 数据 到 达 接 收 端 开始 ， 到 所 有 的 比特 数据 都 
已 经 从 发 送 端 传输 到 接收 端的 时 间 ， 它 取决 于 链 路 的 带宽 。 通 过 链 路 可 以 在 一 个 时 钟 
周期 内 传输 的 数据 块 通常 称 为 物理 传输 单元 , 或 者 简称 为 phit。 假 如 phit 的 大 小 为 
mn， 一 个 时 钟 周期 的 长 度 为 1/f， 那 么 链 路 的 带宽 为 Ns, xf， 而 数据 包 的 传输 时 间 就 是 
数据 包 的 位 数 除 以 链 路 的 带宽 ， 即 (Ns + Ns)/(Np, xf)。 

路 由 时 间 。 在 电路 交换 策略 中 ， 这 个 延迟 是 指 在 开始 传输 数据 包 之 前 的 路 由 建立 时 间 ， 
而 在 数据 包 交 换 策 略 中 ， 这 个 延迟 是 指 为 每 个 路 由 器 设置 路 由 策略 的 时 间 。 

交换 时 间 。 交 换 策 略 表明 数据 包 是 如 何在 交换 器 中 传输 的 。 数 据 包 交 换 的 一 种 实现 方 
式 是 存储 转发 〈store-and-forward) 交换 ， 即 将 数据 包 先 整体 从 一 个 交换 器 传输 到 另 一 
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个 交换 器 ， 然 后 再 决定 下 一 步 路 由 。 另 一 种 实现 方式 是 直通 式 (cut-through) 交换 ， 
它 以 流水 的 形式 在 交换 器 之 间 传输 数据 包 。 交 换 策略 引起 的 时 间 开 销 其 实 已 经 在 飞行 
时 间 中 计算 过 了 。 
。 接收 端 开销 。 发 送 端 需要 创建 数据 包 信封 ， 与 之 相对 应 ， 接 收 端 就 需要 打开 信封 将 数 
据 包 从 输入 缓冲 区 取出 ， 以 便 后 续 的 数据 包 还 可 以 被 继续 接收 。 这 个 过 程 引起 的 时 间 
开销 在 接收 端 开销 中 统计 。 
这 样 ， 端 对 端的 延迟 就 是 图 6-4b 中 5 部 分 延迟 开销 的 总 和 : 
端 对 端的 数据 包 延 迟 = 发 送 端 开销 + 飞行 时 间 + 传输 时 间 
+ 路 由 时 间 + 接收 端 开销 (6.1) 
在 上 面 的 式 子 中 ， 交 换 时 间 被 包含 在 飞行 时 间 中 了 。 
下 面 给 出 一 个 使 用 式 (6. 1) 来 计算 数据 包 传输 的 端 对 端 延 迟 的 示例 。 
(本 一 一 个 100bit 数据 包 〈 包 含 数据 包 信封 ) 在 电路 交换 网 络 中 传输 ， 在 路 由 上 一 共有 
9 条 链 路 。Phit 大 小 为 10bit， 时 钟 周 期 长 度 为 10ns。 假 定 在 发 送 端 和 接收 端的 时 间 开 销 都 为 
10ns， 并 且 假 设 建立 路 由 的 时 间 为 200ns， 那 么 传输 数据 包 所 需 的 端 对 端 延迟 是 多 少 ? 
从 上 面 的 假定 ， 可 以 获取 如 下 延迟 : 
e 发 送 端 开销 =10ns 
。 路 由 时 间 =200ns 
e 接收 端 开销 = 10ns 
路 由 时 间 是 预先 建立 路 由 的 时 间 开 销 ， 要 完成 路 由 建立 ， 发 送 端 先 送出 一 个 包含 单个 phit 
的 数据 包 ， 该 数据 包 完 整 经 过 9 条 链 路 后 到 达 接 收 端 ， 然 后 接收 端 返回 一 个 数据 包 来 确认 路 由 
已 经 建立 。 
至 于 飞行 时 间 ， 因 为 传输 的 长 度 是 九 级 流水 ， 每 个 时 钟 周期 的 长 度 为 10ns， 因 此 总 的 飞行 
时 间 为 90ns。 总 共 需 要 传输 的 数据 量 是 100 x8 = 800bit，phit 的 大 小 为 10bit， 因 此 数据 包 传输 
需要 80 个 时 钟 周期 ， 总 的 传输 时 间 为 800ns。 电 路 交换 策略 下 没有 交换 的 开销 ， 因 此 交换 时 间 
为 0。 通 过 式 (6.1) ,我 们 可 以 得 出 端 对 端的 延迟 为 : 
10ns + 90ns + 800ns + 200ns + lOns = 1110ns 本 
这 个 例子 显示 ， 数 据 包 经 过 的 链 路 和 交换 器 的 带宽 以 及 数量 ， 对 端 对 端的 延迟 有 很 大 的 影响 ， 
特别 是 对 于 大 的 数据 包 影响 更 大 ， 而 链 路 和 交换 器 的 数量 一 般 由 网 络 的 拓扑 结构 所 决定 。 
网 络 直径 的 概念 定义 了 给 定 网 络 拓扑 结构 中 传输 流水 级 的 数量 ， 网 路 直径 是 IN 中 任意 两 
个 节点 中 最 长 的 传输 流水 级 。 以 图 6-2 中 4 x4 的 网 格 IN 为 例 ， 通 过 统计 数据 包 要 经 过 的 链 路 
数 (又 叫 路 由 距离 ) 可 以 看 到 ,拥有 最 长 传输 流水 级 的 是 从 最 左下 角 的 节点 到 最 右上 角 节 点 
之 间 的 一 条 路 径 ， 这 种 情况 下 ， 数 据 包 一 个 经 过 了 6 条 链 路 ， 因 此 ， 网 络 直径 是 6。 如 果 是 其 
他 的 NxNN 的 网 络 的 话 ， 这 个 网 络 直径 就 是 2 (N-1)。 网 络 直径 反映 的 是 在 最 差 情况 下 的 传输 
流水 级 长 度 ， 或 者 说 是 网 络 中 两 个 节点 在 最 差 情况 下 的 距离 。 除 了 网 络 直径 ， 另 一 个 常用 的 度 
量 标准 是 平均 路 由 距离 ， 它 反映 了 传输 流水 级 的 平均 长 度 或 者 说 是 在 IN 中 所 有 节点 对 的 平均 
距离 。 
到 现在 为 止 ， 我 们 考虑 的 是 发 送 单个 数据 包 的 端 对 端 延迟 ， 而 当 消息 大 小 超过 最 大 的 数据 
包 负 载 的 时 候 ， 就 必须 在 发 送 端 将 消息 拆 分 成 多 个 数据 包 。 一 个 有 趣 的 问题 是 背靠背 连续 传送 
多 个 数据 包 的 时 候 ， 端 对 端 延迟 是 多 少 ” 为 了 传输 多 个 连续 的 数据 包 ， 首先 要 在 发 送 端 组 装 数 
据 包 ,这 占用 了 发 送 端的 一 部 分 开销 ， 然 后 把 数据 包 注入 IN 中 。 假 设 我 们 采用 数据 包 交 换 策 
略 ， 那么 当 传输 时 间 结 束 之 后 ， 当 前 数据 包 的 最 后 一 个 比特 数据 离开 网 络 时 ， 发 送 端的 网 络 接 
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口 又 可 以 重新 注入 下 一 个 数据 包 了 ， 因 此 ， 可 以 将 组 装 数据 包 和 注 和 人 网络 这 两 个 任务 看 成 逻辑 
流水 级 的 两 个 阶段 。 假 如 组 装 数据 包 比 将 数据 包 注入 网 络 中 所 花费 的 时 间 少 ， 那 么 发 送 端的 开 
销 就 可 以 被 隐藏 起 来 ， 同 样 ， 对 于 接收 端 也 是 类 似 。 实 际 上 ， 发 送 端 、 互 连 网 络 和 接收 端 组 成 
了 一 个 三 级 的 流水 线 ， 最 慢 的 那 一 级 决定 了 流水 线 的 整体 吞吐 量 。 因此， 发 送 同一 个 消息 对 应 
的 个 连续 数据 包 的 端 对 端 延迟 的 计算 公式 如 下 : 
端 对 端 延 迟 = 发 送 端 开销 + 接收 端 开销 + 飞行 时 间 + 传输 时 间 + 路 由 时 间 
+(N-1) x (max( 发 送 端 开销 ;传输 时 间 ,接收 端 开 销 ) (6.2) 

虽然 交换 时 间 可 以 单独 计算 , 但 是 在 本 书 中 ， 我们 将 它 合并 到 飞行 时 间 中 ， 因 为 它 影响 了 
传递 数据 包 第 一 个 比特 的 时 间 。 另 外 ， 在 数据 包 交换 策略 下 ， 路 由 时 间 其 实 也 是 类 似 的 ， 但 是 
我 们 选择 将 它 作为 公式 中 一 个 独立 计算 项 。 

计算 发 送 10 个 数据 包 的 端 对 端 延迟 。 假 定 传输 时 间 为 100ns， 发 送 端 和 接收 端的 
开销 分 别 是 110ns 和 80ns， 飞 行 时 间 为 20ns， 其 中 包括 交换 时 间 。 路 由 时 间 为 0。 

因为 发 送 端的 开销 比 传输 时 间 稍 长 了 点 ， 所 以 发 送 端 将 数据 注入 IN 中 的 速度 要 慢 于 IN 消 
耗 数据 包 的 速率 。 相 反 ， 由 于 接收 端的 时 间 开 销 比 传输 时 间 要 小 ， 那 么 接收 端 可 以 按照 IN 的 
速率 来 接收 数据 包 。 综 上 所 述 ， 我 们 可 以 计算 得 到 传输 10 个 数据 包 的 端 对 端 延迟 为 ; 

110 + 80 + 20 + 100 +9 x 110 = 1300ns 二 
带宽 模型 

带宽 和 延迟 并 不 是 完全 独立 的 ， 带 宽 受 限 的 话 通常 也 会 导致 延迟 变 长 ， 因 此 ， 对 IN 中 带 
宽 特征 的 理解 就 显得 非常 重要 。 首 先 ， 弄 清楚 在 点 对 点 的 传输 中 ， 发 送 端 到 接收 端的 路 径 上 是 
否 存 在 带宽 瓶颈 , .这 是 非常 重要 的 。 其 次 ， 即 使 带宽 不 存在 瓶颈 ， 如 果 与 其 他 传输 节点 对 中 的 
数据 包 存 在 冲突 ， 也 可 能 会 导致 传输 滞后 ， 这 也 就 意味 着 会 导致 更 长 的 延迟 。 

当 多 个 数据 包 在 一 个 节点 对 中 传输 的 时 候 ， 如 果 发 送 端 和 接收 端的 时 间 开销 比 传输 时 间 要 
小 ,那么 这 两 者 的 开销 可 以 被 隐藏 掉 ， 也 就 是 说 ， 如 果 传 输 时 间 更 长 ， 那 么 可 用 的 带宽 受 限 于 
IN 而 不 受 限于 节点 。 与 之 相反 的 是 ， 如 果 发 送 端 或 者 接收 端的 时 间 开销 比 传输 时 间 长 ， 那 么 
带宽 将 不 再 受 限于 IN， 而 是 受 限 于 数据 包 注 人 网 络 或 者 从 网 络 接收 的 速率 。 因 此 ， 在 节点 之 
间 传 输 数 据 包 序列 的 有 效 可 用 带宽 可 以 按照 如 下 公式 计算 : 


A ea 
有 效 常 宽 = Waxt 发 送 庙 开 销 , 接 收 端 开销 ,传输 时 间 ) 人 


式 (6.3) 说 明 带 宽 受 限于 3 个 可 能 的 瓶颈 ; 发 送 端 ，IN， 接 收 端 。 

即使 在 两 个 节点 间 的 传输 流水 级 没有 任何 带宽 瓶 开 ， 多 个 路 由 之 间 共 享 的 IN 资源 也 可 能 
会 造成 网 络 竞争 。 比 如 在 图 6-2 的 4x4 网 络 中 ， 交 换 器 在 同一 个 时 钟 周期 内 最 多 可 能 接收 到 5 
个 数据 包 (包括 和 交换 器 相连 的 那个 节点 发 来 的 数据 包 ) ， 当 出 现 这 种 情况 时 ， 交 换 器 需要 能 
够 选 出 一 个 优胜 者 进行 处 理 ， 而 阻塞 其 余 的 4 个 数据 包 ， 这 个 选 出 优胜 者 的 过 程 叫 作 仲裁 。 如 
何 处 理 那些 被 阻塞 的 数据 包 是 由 流 控 策 略 所 决定 的 ,但 是 不 管 使 用 什么 策略 ， 传 输 滞 后 就 意味 
着 会 有 更 长 的 数据 包 延 迟 。 这 一 影响 被 包含 在 端 对 端的 延迟 模型 中 ， 作 为 延迟 的 一 个 额外 组 成 
部 分 ， 我 们 称 之 为 流 控 时 间 。 

网 络 竞争 不 仅 影响 了 端 对 端的 延迟 ， 也 影响 了 有 效 带 宽 ， 我 们 之 后 会 探究 不 同 的 流 控 策略 
以 及 它们 对 端 对 端 延 迟 和 带宽 效率 的 影响 。 当 网 络 竞争 超过 特定 的 国 值 时 ， 网 络 就 会 饱和 ， 延 
迟 也 会 大 幅度 增加 ， 这 和 交通 堵塞 后 高 速 公路 上 发 生 的 情况 类 似 : 在 拥堵 的 地 方 会 逐渐 开始 排 
队 ， 并 最 终 导 致 该 地 段 的 交通 完全 堵塞 。 不 过 幸运 的 是 ， 互 连 网 络 不 是 孤立 地 起 作用 ， 排 队 的 
数据 包 序 列 可 能 一 直 堵 塞 到 发 送 节点 ;这 使 得 发 送 节点 会 停止 向 网 络 中 注 人 数据 包 。 由 此 可 
见 ，IN 和 节点 事实 上 组 成 了 一 个 自我 调节 的 闭合 回路 ,网络 竞 争 的 加 剧 往往 会 导致 注入 速率 
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的 降低 ， 而 注入 速率 的 降低 又 会 反 过 来 缓解 网 络 竞争 。 这 和 交通 堵塞 的 情况 在 收音 机 里 广播 之 
后 ， 高 速 公 路 上 发 生 的 情况 相似 : 当 收 到 交通 堵塞 消息 时 ， 汽 车 会 避免 驶 向 阻塞 的 高 速 公路 路 
段 ， 从 而 降低 交通 的 压力 ， 帮 助 解决 阻塞 问题 

我 们 有 必要 研究 一 下 IN 能 够 提供 的 聚合 带宽 ,度量 标准 之 一 是 使 用 对 分 带宽 。IN 可 以 被 
看 成 边 和 顶点 构成 的 图 ， 在 图 中 顶点 代表 交换 器 ， 边 代表 链 路 。 对 分 指 的 是 将 图 按 最 小 数量 的 
边 进 行 切 分 ， 使 得 切 分 后 形成 两 个 同 构 的 子 图 。 对 分 带宽 指 的 是 两 个 子 图 之 间 的 总 带宽 。 

6 更 假如 在 图 6-2 网 格 中 的 每 个 链 路 的 带宽 为 5»， 那么 网 格 的 对 分 带宽 是 多 少 ? 

我 们 既 可 以 将 4 x4 的 网 格 水 平 切割 成 2 x4 网 格 ， 也 可 以 垂直 切割 成 4x2 网 格 。 在 任何 
一 种 情况 下 ， 切 割 都 需要 跨越 4 条 链 路 ， 所 以 对 分 带宽 为 45。 < 

当 某 半 个 网 络 中 的 节点 只 和 剩 下 的 半 个 网 络 中 的 节点 通信 时 ， 对 分 带宽 可 以 用 来 测量 其 网 
络 带宽 。 对 于 并 行 机 器 中 的 通信 模式 来 说 ， 这 是 一 个 很 悲观 的 假设 。 因 为 实际 上 ， 可 扩展 并 行 
算法 中 的 通信 一 般 可 能 更 具有 局 部 性 ， 而 如 果 过 分 聚焦 在 对 分 宽带 上 可 能 导致 网 络 设计 过 度 。 

IN 聚合 带宽 的 另 一 个 度量 标准 是 节点 划分 出 来 的 所 有 链 路 的 带宽 总 和 。 假 定 在 Wx N 的 网 
格 中 链 路 的 带宽 是 5， 那 么 聚合 带宽 是 2N(N -1)b， 每 个 节点 的 带宽 是 2(N -1)b/N， 因 此 ， 
当 N 很 大 时 ， 这 个 值 趋 近 于 24。 不 管 我 们 采用 的 度量 标准 是 对 分 带宽 还 是 每 个 节点 的 链 路 带 
宽 ， 网 络 的 拓扑 结构 都 会 对 IN 带宽 产生 很 大 的 影响 。 另 外 ， 具 体 的 实现 方法 ， 比 如 每 个 链 路 
的 宽度 、 交 换 器 忙于 路 由 策略 的 时 间 等 ， 都 会 对 带宽 和 网 络 竞争 产生 巨大 的 影响 。 

下 面 我 们 将 详细 探究 IN 设计 的 空间 ， 包 括 交 换 策 略 、 网 络 的 拓扑 结构 以 及 路 由 算法 。 


”6. 3 交换 策略 


交换 策略 关系 到 路 由 器 是 如 何 建立 的 ， 以 及 数据 包 是 如 何 从 源 节点 传输 到 目的 节点 的 。 为 
了 对 不 同 的 交换 策略 进行 性 能 比较 ， 我 们 采用 类 似 6. 2. 2 节 中 的 方法 对 源 和 目的 之 间 的 路 径 进 
行 传输 流水 级 的 建 模 。 进 一 步 ， 假 设 数据 包 在 从 源 节点 到 目的 节点 总 共 需 经 过 工 个 交换 器 ， 每 
个 数据 包 包含 人 个 phit， 每 个 phit 指 的 是 传输 流水 级 之 间 在 单个 时 钟 周期 内 能 够 完成 的 传输 
数据 。 
首先 考虑 电路 交换 策略 ， 在 电路 交换 策略 中 ， 首 先 需 要 建立 好 路 由 ， 然 后 数据 包 通 过 网 络 
进行 流水 传输 。 根 据 6. 2. 2 节 中 描述 的 端 对 端 数据 包 延 迟 模型 ， 路 由 时 间 是 在 数据 包 传 输 之 前 
建立 路 由 所 消耗 的 时 间 。 假 如 在 每 个 交换 器 中 的 路 由 决策 需要 只 个 网 络 周期 ， 路 由 时 间 可 以 表 
示 为 从 源 节点 发 送 单个 phit 数据 包 到 目的 节点 的 时 间 ， 再 加 上 返回 到 源 节点 通知 路 由 已 经 建立 
的 时 间 ， 因 此 路 由 时 间 可 以 表示 为 
路 由 时 间 = 上 XxXR+ 飞 行 时 间 =LxR+L = L(R+1) (6.4) 
所 以 端 对 端的 数据 包 延 迟 可 以 表示 为 \ 
端 对 端的 数据 包 延 迟 = 发 送 端 开销 + 飞行 时 间 + 传输 时 间 + 路 由 时 间 + 接收 端 开销 
= 发 送 端 开销 +L+N+ 上 (R +1) + 接收 端 开销 
= 发 送 端 开销 +L(R+2) + N+ 接收 端 开销 (6.5) 
式 中 , 上 入 分 别 表示 飞行 时 间 和 传输 时 间 ; L(R+1) 表示 由 式 (6.4) 得 出 的 路 由 时 间 。 如 
果 路 由 算法 比较 简单 ，R 应 该 是 一 个 很 小 的 整数 。 
式 (6.5) 表明 假如 数据 包 比 较 大 ， 传 输 时 间 将 主导 端 对 端的 延迟 。 这 种 情况 下 ， 电 路 交 
换 策 略 将 会 更 有 优势 ， 因 为 数据 包 可 以 全 速 发 送 ， 在 数据 包 传输 过 程 中 没有 任何 交换 或 者 路 由 
的 开销 。 需 要 注意 的 是 ， 这 个 端 对 端的 延迟 模型 中 没有 考虑 到 IN 的 资源 在 整个 数据 包 传输 过 
程 中 会 一 直 被 占用 ， 这 实际 上 会 对 带宽 利用 率 产 生 严重 影响 ， 而 在 上 面 的 端 对 端 延 迟 模 型 中 并 
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没有 考虑 这 个 因素 ， 如 果 考 虑 进去 的 话 ， 可 能 会 导致 电路 交换 策略 不 像 现 在 这 么 有 吸引 力 。 
在 数据 包 交 换 策略 中 ， 当 数据 包 从 源 节点 传输 到 目的 节点 的 过 程 中 ， 路 由 的 建立 是 通过 在 
数据 包 到 达 的 每 个 交换 器 中 执行 路 由 决策 来 完成 的 。 下 面 考虑 两 种 交换 策略 : 存储 转发 交换 策 
略 ， 直 通 式 交换 策略 。 在 存储 转发 交换 策略 中 ， 数 据 包 是 以 整体 的 形式 从 一 个 交换 器 传输 到 另 
一 个 交换 器 的 ， 这 意味 着 数据 包 的 所 有 数据 都 必须 接收 完了 ， 才 能 开始 往 下 一 个 节点 传输 数 
据 。 图 6-5 的 时 序 图 表明 了 在 存储 转发 模式 下 (图 6-5a) 和 直通 式 模式 下 (图 6-5b) 数据 包 
是 如 何 沿 着 工 个 交换 器 从 源 节 点 移动 到 目的 节点 的 。 根 据 前 面 的 定义 ,飞行 时 间 包 括 了 假定 没 
有 路 由 开销 时 从 源 节 点 传输 单个 比特 到 目的 节点 的 时 间 。 而 在 存储 转发 交换 策略 中 ， 在 数据 包 
开始 往 下 一 个 节点 传输 之 前 ， 整 个 数据 包 必 须 从 一 个 交换 器 传输 到 另 一 个 交换 器 ， 因 此 ， 数 据 
包 在 每 次 交换 中 共 需 花费 NN 个 周期 ， 目 的 节点 接收 到 第 一 个 比特 数据 时 ,一共 需 花费 LxN 个 
周期 。 可 以 看 到 ， 和 电路 交换 策略 不 同 ， 存 储 转发 交换 策略 下 的 飞行 时 间 取 决 于 数据 包 的 大 
小 。 传 输 时 间 和 电路 交换 策略 下 一 样 ， 需 要 W 个 周期 。 假 定 在 每 个 节点 上 的 路 由 开销 为 尺 个 周 
期 ,那么 总 的 路 由 时 间 为 上 xR 个 周期 。 因 此 ， 端 对 端的 数据 包 延 迟 可 以 表示 成 : 
端 对 端的 数据 包 延 信 = 发 送 端 开销 +LxN+N+LxRR+ 接收 端 开销 
= 发 送 端 开销 + N(L+1) +LxR+ 接收 端 开销 (6.6) 


交换 机 上 





a) b) 
图 6-5 在 存储 转发 (a) 和 直通 式 (b) 交换 策略 下 的 数据 包 交 换 过 程 


因为 传输 时 间 NN 和 飞行 时 间 N xL 是 和 数据 包 大 小 Nphit 的 数量 ) 成 比例 的 ， 所 以 存储 
转发 交换 策略 的 延迟 随 着 数据 包 的 增长 而 增长 ， 因 此 ， 当 数据 包 越 大 时 ， 存 储 转发 模式 策略 的 
吸引 力 就 越 小 。 

在 直通 式 交换 策略 中 (如 图 6-5b 所 示 ) ， 每 个 交换 器 检测 带 有 路 由 地 址 的 数据 包头 部 。 和 
电路 交换 不 同 的 是 ， 这 里 只 有 当 数 据 包 到 达 交 换 器 的 时 候 ， 它 才 会 进行 路 由 操作 ， 因 此 每 次 都 
会 有 RR 个 周期 的 时 间 开 销 。 只 要 不 存在 竞争 ， 数 据 包 就 会 以 流水 的 方式 从 源 节 点 传输 到 目的 节 
点 。 不 过 一 旦 出 现 竞 争 ， 整 个 数据 包 都 会 被 阻塞 。 流 挖 单元 (flow-control unit， 简 称 flit) 这 个 
词 定义 的 就 是 在 竞争 中 被 阻塞 的 数据 包 中 的 部 分 ， 而 在 直通 式 交 换 策略 中 ，flt 包括 整个 数据 
包 的 数据 。 

为 了 计算 直通 式 交换 策略 的 端 对 端 延 迟 ， 首 先 假设 路 由 时 间 为 0， 数 据 包 以 在 电路 交换 策 
略 下 相同 的 路 径 通过 整个 人 ， 因 此 飞行 时 间 是 工 个 周期 。 假 如 在 每 个 交换 器 中 路 由 开销 为 尺 
个 周期 ， 那 么 路 由 将 会 在 端 对 端 延 迟 中 增加 工 xR 个 周期 。 因 此 ， 对 于 直通 模式 的 交换 策略 ， 
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端 对 端的 数据 延迟 可 以 表示 为 
端 对 端的 数据 包 延 沁 = 发 送 端 开销 +L+ N+ 上 LxR+ 接收 端 开销 

= 发 送 端 开销 +Lx(R+1) + N+ 接收 端 开销 (6.7) 
直通 式 交 换 策略 的 延迟 模型 和 电路 交换 策略 延迟 模型 ( 见 式 (6.5)) 非常 相似 , 但 也 有 一 个 
很 大 的 区 别 。 在 电路 交换 策略 中 ,在 数据 包 从 源 节点 传输 到 目的 节点 的 过 程 中 ， 整 个 路 由 是 一 
直 都 设 定好 的 。 与 之 相反 ， 在 直通 式 交 换 策 略 中 ， 数 据 包 在 交换 完成 时 会 及 时 地 回收 交换 器 资 
源 ， 因 此 直通 式 交 换 策 略 对 网 络 带宽 的 利用 率 要 好 于 电路 交换 策略 。 
“， 直通 式 交换 策略 会 引起 一 个 有 趣 的 问题 : 当 两 个 数据 包 到 达 同 一 个 交换 器 并 且 被 分 配 到 同 
一 个 输出 端口 的 时 候 如 何 解决 竞争 问题 。 通 常 有 两 种 解决 方法 : 第 一 种 方法 是 虚拟 直通 式 
(virtual cut-through) 交换 ， 在 这 种 策略 下 ， 在 交换 器 中 的 缓冲 区 一 定 要 足够 大 ， 可 以 容纳 整个 
数据 包 ， 当 输出 端口 忙碌 的 时 候 ， 被 分 配 到 这 个 端口 的 新 的 数据 包 就 被 缓存 到 交换 器 的 缓冲 区 
中 ,因此 这 种 情况 下 流 控 单 元 包括 了 整个 数据 包 ， 这 意味 着 当 网 络 负载 增加 的 时 候 ， 虚 拟 直通 
式 交 换 策 略 表现 得 越 来 越 像 存储 转发 交换 策略 ， 数 据 包 将 整体 从 一 个 交换 器 移动 到 另 一 个 交换 
器 。 另 一 种 方法 是 求 洞 式 (wormhole) 交换 ， 由 于 缓冲 区 资源 是 很 宝贵 的 ， 有 些 网 络 无 法 在 交 
换 器 的 输入 端口 提供 足够 的 缓冲 区 空间 来 保存 整个 数据 包 。 因 此 在 虫 洞 交换 策略 中 ， 交 换 器 只 
缓冲 包含 路 由 信息 的 那 几 个 phit， 因 此 ， 对 应 的 包 t 会 比 数据 包 要 小 。 在 虫 洞 交 换 策 略 中 ， 组 
成 数据 包头 部 的 phit 会 在 出 现 竞争 的 时 候 阻塞 在 当前 交换 器 ， 而 属于 数据 包 的 其 他 phit 则 缓存 
在 阻塞 节点 前 的 其 他 交换 器 缓冲 区 中 。 可 以 看 到 ， 数 据 包 被 拆 分 保存 在 传输 路 径 上 的 多 个 交换 
器 中 ， 这 条 通路 将 一 直 被 保持 直到 数据 包 可 以 继续 往 前 移动 。 


6.4 拓扑 结构 


我 们 看 到 端 对 端的 数据 包 延 迟 严重 依赖 于 数据 包 路 径 中 的 交换 器 的 数量 ， 此 外 ， 传 输 中 由 
于 数据 包 竞 争 造成 的 延迟 影响 在 很 大 程度 上 取决 于 网 络 交换 器 连接 的 方式 ， 因 此 拓扑 结构 在 网 
络 中 扮演 着 很 重要 的 角色 。 

在 这 一 节 ， 我们 主要 探讨 通用 IN 拓扑 结构 的 特性 。 在 6.4.1 节 ， 我 们 先 从 间接 互连网 络 
这 一 类 拓扑 结构 开始 介绍 ， 在 这 种 拓扑 结构 中 ， 整 个 IN 可 以 被 看 作 带 有 端口 的 盒子 ， 这 些 端 
口 和 所 有 需要 互相 交换 信息 的 其 他 节点 相连 。 而 图 6-2 所 示 的 网 格 结构 与 此 不 同 ， 网 格 中 节点 
通过 交换 器 紧密 结合 在 一 起 ， 这 种 网 络 叫 作 直接 互连网 络 ， 这 部 分 内 容 将 在 6.4.2 节 进 行 
介绍 。 


6. 4. 1 间接 网 络 


总 线 

目前 为 止 ， 最 常见 的 间接 拓扑 结构 是 总 线 结构 ， 总 线 结 构 也 是 共享 媒体 IN 的 一 个 实 
例 。 在 最 简单 的 实现 中 ， 总 线 连接 了 一 系列 互相 之 间 可 以 通信 的 节点 。 如 图 6-1a， 当 通过 总 线 
连接 私有 cache 和 共享 cache 时 ， 可 能 的 请 求 操 作 包 括 三 种 : 第 一 种 是 读 请 求 ， 该 请 求 返回 一 
个 cache 块 ; 第 二 种 是 写 回 请 求 ， 该 请 求 强制 将 脏 的 cache 块 写 回 到 共享 cache 中 ; 第 三 种 是 特 
殊 的 广播 请 求 ， 这 和 我 们 在 第 5 章 中 介绍 的 一 样 ， 通 过 这 种 广播 请 求 可 以 保证 私有 cache 中 内 
容 的 一 致 性 。 

因为 总 线 是 一 个 共享 的 媒体 人， 所 以 请 求 节 点 需要 首先 获取 对 它 的 独占 式 访问 ,这 可 以 
通过 和 总 线 有 关 的 仲裁 机 制 来 实现 。 仲 裁 机 制 在 所 有 请 求 节点 中 选 出 一 个 胜出 者 ， 只 有 胜出 者 
的 请 求 才 允许 被 处 理 ， 而 没有 获取 到 访问 权限 的 其 他 节点 就 必须 等 待 总 线 释放 。 除 了 保证 对 总 
线 的 独占 式 访问 ， 仲 裁 的 男 一 个 功能 是 保证 竞争 请 求 的 公平 性 。 
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在 大 多 数 情况 下 ， 请 求 发 出 之 后 会 跟着 产生 应 答 ， 比 如 当 一 个 cache 块 的 请 求 被 发 送 到 
内 存 模块 ， 内 存 模块 在 经 过 一 定 的 访问 时 间 之 后 ， 会 将 请 求 的 块 响应 给 请 求 节点 。 从 发 送 
请 求 、 访 问 内 存 ， 一 直到 请 求 块 响应 这 个 过 程 的 时 间 有 多 长 ， 那 么 其 他 被 挂 起 的 请 求 就 必 
须 等 待 多 久 。 下 面 通过 一 个 例子 来 展示 一 个 原子 的 、 不 支持 流水 的 总 线 ， 这 种 结构 的 带宽 
利用 率 很 低 。 

假定 总 线 结构 中 有 三 条 独立 的 总 线 ， 在 每 个 总 线 周 期 内 ， 可 以 分 别传 输 一 个 请 
求 、 一 个 地 址 以 及 256bit 的 数据 ， 总 线 的 频率 为 100MHz。 和 总 线 相 连 的 内 存 分 体 组 织 
以 在 200ns 访问 32 字 节 的 cache 块 。 假 定 这 是 一 条 原子 总 线 ， 那 么 总 线 空闲 的 时 间 比 例 是 
多 少 ? 

当 请 求 节点 获取 使 用 总 线 权限 的 时 候 ， 它 在 总 线 上 提交 了 相应 的 读 请 求 和 请 求 块 的 地 址 。 
由 于 所 有 的 连接 节点 都 在 监听 总 线 的 活动 ， 因 此 内 存 模块 可 以 直接 接收 来 自 总 线 的 地 址 。 这 个 
发 送 请 求 的 过 程 占用 了 10ns 的 总 线 ， 然 后 总 线 会 空闲 200ns (访问 内 存 的 时 间 ) ， 之 后 再 经 过 
10ns， 内 存 模块 将 会 返回 本 次 请 求 的 数据 块 和 地 址 。 因 此 ， 这 个 过 程 中 总 线 空闲 的 时 间 比 例 为 
200/220 =91% 。 a 

为 了 提高 带宽 的 利用 率 ， 有 必要 在 某 个 节点 的 请 求 处 理 阶段 允许 其 他 的 节点 使 用 总 线 。 要 
做 到 这 一 点 ,一 个 总 线 事务 可 以 分 解 成 请 求 和 应 答 两 个 阶段 。 在 流水 的 (pipelined) 总 线 或 者 
分 割 -事务 (split-transaction) 总 线 中 ， 总 线 只 在 请 求 或 者 应 答 阶 段 允 许 独占 式 的 访问 。 在 
例 6.4 中 ， 当 内 存 模块 捕获 了 读 请 求 之 后 ， 总 线 就 会 被 释放 ， 在 内 存 取 回 数据 块 的 过 程 中 ， 其 
他 等 待 的 请 求 可 以 使 用 总 线 。 一 旦 内 存 准备 好 应 答 ， 就 需要 重新 通过 仲裁 获取 总 线 ， 这 会 增加 
总 线 事 务 的 延迟 。 因 此 ， 设 计时 往往 需要 在 更 短 延 迟 还 是 更 高 带宽 之 间 进 行 权衡 ， 环 过 ， 通 常 
来 讲 ， 能 获取 更 高 带宽 的 分 割 - 事务 总 线 往往 更 有 优势 。 

总 线 结构 简单 ， 因 此 使 用 起 来 也 很 方便 ,但 是 由 于 总 线 结构 属于 共享 媒介 互 连 结 构 ， 本 质 
上 是 不 可 扩展 的 。 当 连接 到 总 线 上 的 节点 越 来 越 多 时 ， 两 个 因素 会 导致 延迟 的 增加 和 带宽 的 降 
低 : 首先 节点 的 增加 往往 意味 着 总 线 更 长 ; 其 次 ， 节 点 的 增多 会 导致 总 线 电 容 负载 的 增加 。 因 
此 ,能够 连接 到 总 线 上 的 节点 数目 是 非常 有 限 的 ， 由 于 这 个 原因 ， 诸 如 交叉 开关 等 其 他 间接 网 
络 逐 渐 流 行 起 来 。 

交叉 开关 

交叉 开关 是 一 种 简单 的 间接 网 络 ， 它 通过 输入 /输出 端口 将 两 组 节点 连接 起 来 。 在 图 6-6a 
中 ,输入 端口 在 左 侧 ， 输 出 端口 在 上 侧 。N x 的 交叉 开关 可 以 看 成 Y 个 水 平 的 和 N 个 垂直 的 
总 线 ， 在 每 个 相交 的 地 方 都 有 一 个 交叉 点 ， 每 个 交叉 点 可 以 连接 一 条 水 平 总 线 和 一 条 垂直 总 
线 。 通 过 路 由 机 制 可 以 控制 所 有 的 交叉 点 ， 比 如 控制 水 平 总 线 i 可 以 连接 到 垂直 总 线 j (点 对 
点 或 者 单 播 连接 ) ， 或 者 连接 到 多 条 垂直 总 线 (多 播 或 者 广播 连接 )。 这 意味 着 在 所 有 的 入 对 
节点 中 去 只 要 某 个 节点 对 和 其 他 的 节点 对 不 同 ， 那 么 就 必须 为 其 单独 建立 一 个 点 对 点 的 连接 ,、 
可 见 连 接 数 和 节点 数 是 相对 应 的 ， 因 此 交叉 开关 的 带宽 可 以 随 着 节点 数 线性 增加 。 然 而 节点 数 
的 增多 会 导致 交叉 开关 的 不 断 增 大 ， 随 之 总 线 的 长 度 也 随 着 节点 数 线性 增加 ， 这 会 导致 延迟 的 
增 大 。 除 此 之 外 ， 交 叉 点 的 数量 和 节点 数 呈 平方 关系 ， 交 叉 开 关 的 扩展 性 最 终 会 受 限 于 可 用 的 
资源 成 本 。 

多 级 互连网 络 

为 了 解决 交叉 开关 的 可 扩展 间 题 ， 方 法 之 一 是 把 交叉 开关 作为 基本 结构 单元 来 组 建 更 大 的 
间接 网 络 。 图 6-6b 显示 了 一 个 多 级 互连网 络 (Multistage Interconnection Network，MIN ) 的 例 
子 ， 用 了 多 个 2 x2 的 交叉 开关 将 左边 的 8 个 节点 和 右边 的 8 个 节点 互 连 起 来 。 


互 过 网 络 225 








a ) 8x8 的 交叉 开关 b ) 2x 2 交叉 开关 实现 的 欧米 茄 MIN 
6-6 ”交叉 开关 和 MIN 


在 上 面 例子 里 的 MIN 中 ， 交 叉 开 关 一 共 包 括 3 级 。 第 一 级 中 的 交叉 开关 通过 全 混 洗 交换 的 
方式 连接 到 下 一 级 。 全 混 洗 交 换 的 连接 方式 如 下 : 第 一 级 的 输出 端口 从 上 到 下 被 标记 成 0， 
1，…，7， 这 些 端口 依次 连接 到 下 一 级 的 0，2，4，6,，1,， 3，5，7 号 输入 端口 ， 组 成 了 一 个 
全 混 洗 交换 操作 。 全 混 洗 这 一 命名 是 根据 扑克 牌 中 的 洗 牌 操作 得 来 的 : 洗 牌 时 把 一 副 牌 分 为 两 
组 ， 然 后 交错 混 洗 到 一 起 。 基 于 全 混 洗 的 交换 网 络 也 被 叫 作 欧 米 功 网 络 。 

通常 情况 下， 用 交换 度数 为 的 交叉 开关 构成 的 MIN 需要 Nlog,N/k 个 交叉 开关 。 如 
图 6-6b 中 的 MIN ， 用 两 个 输入 端口 和 输出 端口 的 交叉 开关 (上 =2) 连接 了 8 个 节点 (N=8)， 
所 以 需要 的 交叉 开关 数量 为 8 x3/2 = 12。 这 个 例子 也 从 成 本 的 可 扩展 性 角度 解释 了 为 什么 MIN 
比 单纯 的 交叉 开关 结构 更 具有 吸引 力 ， 因 为 此 时 交叉 开关 数量 的 增长 和 节点 数 不 是 平方 关系 而 
是 对 数 关系 : 0( Nlog;N)。 不 过 ，MIN 结构 下 ， 数 据 包 从 源 节点 到 目的 节点 所 要 经 过 的 交叉 开 
关 数 量 更 多 ， 需 要 经 过 logiV 个， 而 在 Wx 的 交叉 开关 结构 中 ， 数 据 包 只 需 经 过 一 个 交叉 点 。 

对 于 节点 数 比 较 多 的 网 络 来 说 ，MIN 的 成 本 要 低 于 交叉 开关 ， 不 过 MIN 比 交 叉 开 关 更 容 
易 受 到 竞争 的 影响 。 举 个 例子 ， 输 入 节点 0 希望 和 输出 节点 4 建立 一 条 路 由 ,输入 节点 4 希望 
和 输出 节点 6 建立 一 条 路 由 ， 这 两 个 路 由 在 图 6-6b 中 用 粗 线 进 行 了 标记 , 如 图 中 所 示 ; 虽然 
这 两 条 路 由 不 会 在 同一 个 交叉 开关 内 部 竞争 ， 但 是 它们 共享 了 第 一 级 和 第 二 级 交叉 开关 之 间 的 
链 路 ， 因 此 数据 包 经 过 这 里 时 会 被 串 行 化 。 

树 

不 同 级 之 间 的 交换 器 连接 方式 (也 即 拓 扑 结构 ) 会 影响 路 由 对 共享 网 络 资源 的 占用 ， 并 
可 能 造成 竞争 冲突 。 现 在 考虑 一 类 新 的 称 为 树 的 基本 间接 网 络 ， 图 6-7a 展示 了 一 个 三 叉 树 互 
连 网 络 。 通 常情 况 下 ， 一 个 连接 NN 个 节点 、 度 为 上 的 树 ， 其 深度 为 log:N， 即 需要 log,N 级 的 交 
换 。 树 结构 的 节点 在 叶子 上 ， 从 一 个 节点 发 送 到 另 一 个 节点 的 数据 包 首 先 需 要 传输 到 树 结构 中 
对 应 源 节点 和 目的 节点 的 共同 祖先 的 交换 器 节点 上 ， 然 后 再 从 这 个 交换 器 节点 把 数据 包 下 发 到 
目的 节点 。 树 结构 虽然 简单 ， 但 是 也 有 缺点 ， 比 如 它 的 对 分 宽度 取决 于 单独 的 一 条 链 路 ， 假 如 
大 部 分 的 网 络 流量 都 要 经 过 位 于 树 根部 的 对 分 点 ， 那 么 树 的 根部 将 会 形成 严重 瓶颈 。 缓 解 这 一 
瓶颈 的 主流 方法 是 采用 胖 树 (fat tree) 结构 。 在 胖 树 结构 中 ， 并 不 是 所 有 链 路 都 配备 一 样 的 带 
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宽 。 实 际 的 树 在 越 靠近 树 根 的 地 方 ， 树 干 也 会 越 粗 ; 与 之 类 似 ， 在 胖 树 结构 中 ， 离 树 根 越 近 的 
链 路 ， 其 带宽 也 越 高 。 





a ) 二 叉 树 b ) 蝶 形 MIN 网 络 
图 6-7 树 和 蝶 形 网 络 


蝶 形 网 络 

蝶 形 网 络 是 一 种 内 贬 树 结构 的 MIN， 在 图 6-7b 中 加 粗 显示 的 是 从 所 有 源 节点 到 目的 节点 0 
的 路 由 ， 这 些 路 由 组 成 了 一 个 二 叉 树 ， 从 图 中 容易 看 到 ， 蝶 形 网 络 中 树 根 的 数目 和 目的 节点 的 
数目 是 一 样 的 ， 虽 然 树 结构 中 跨越 根部 的 地 方 可 能 需要 共享 一 些 链 路 或 者 交换 器 。 

GE 图 在 蝶 形 网 络 找 出 两 个 内 嵌 的 逻辑 二 又 树 ， 要 求 这 两 个 二 叉 树 不 存在 任何 链 路 共 
享 ， 并 且 路 由 传输 时 不 会 有 任何 冲突 。 

这 是 可 能 的 ， 比 如 以 目的 节点 0 为 根 节点 的 树 ， 和 以 目的 节点 7 为 根 节点 的 树 之 间 ， 就 没 
有 任何 的 链 路 共享 。 4 


6. 4.2 直接 网 络 


当 多 个 某 类 设备 需要 和 多 个 其 他 类 设备 连接 时 ， 采 用 间接 网 络 是 非常 方便 的 ， 比 如 在 
图 6-1a 中 的 片上 多 处 理 系统 ， 就 是 使 用 间接 网 络 将 带 有 一 级 cache 的 处 理 器 核 连接 到 共享 
cache 的 多 个 bank 上 。 在 实际 环境 时 ， 任 何 类 型 的 间接 网 络 都 可 能 会 被 用 到 。 考 虑 极端 情况 之 
一 ， 如 果 连 接 的 设备 只 是 很 少量 ， 那 么 总 线 结构 就 已 经 足够 了 。 再 考虑 反 向 的 另 一 个 极端 ， 如 
果 系 统 中 有 上 百 个 设备 ， 那 么 就 需要 一 些 特定 类 型 的 MIN 来 提供 足够 的 通信 带宽 和 可 接受 的 、 
延迟 。 

间接 网 络 的 一 个 缺点 是 设备 没有 直接 彼此 相连 一 一 请 求 必须 经 过 一 系列 的 交换 器 单元 ， 
并 且 交 换 器 的 数目 通常 是 固定 的 ,不管 设 备 之 间 是 怎么 通信 交互 的 。 当 设备 的 数目 较 多 时 ， 
使 用 间接 网 络 通 常 就 不 再 有 优势 ， 而 是 会 倾向 于 如 图 6-2 所 示 的 mesh 网 络 一 样 将 设备 在 网 
络 中 分 布 式 摆 放 ， 设 备 紧密 地 连接 上 它们 对 应 的 交换 器 单元 上 。 在 特殊 情况 下 ， 当 同类 设 
备 连 接 在 二 起， 比如 形成 计算 机 主板 ， 或 者 是 片上 多 处 理 器 系统 ， 这 时 可 以 把 它 当 成 一 个 
单独 的 节点 ， 并 进一步 把 它们 连接 到 一 个 更 大 的 规则 互连网 络 中 (比如 mesh 结构 ) ， 这 样 
有 助 于 利用 通信 模式 的 局 部 性 ， 频 繁 通信 的 任务 可 以 分 配 到 相 邻 的 节点 ， 这 种 类 型 的 互 连 


互 过 网络 227 





网 络 称 为 直接 互连网 络 。 

线性 阵列 和 环 

最 简单 的 直接 网 络 是 通过 双向 链 路 将 节点 互 连 起 来 ， 如 图 6-8a 所 示 ， 这 种 网 络 称 作 线性 
列 阵 。 和 总线 相 比 ， 总 线 一 次 只 处 理 一 个 消息 ， 而 线性 阵列 可 以 同时 交换 NN -1 个 消息 (假如 
有 个 节点 )。 然 而 相 比 于 总 线 的 不 中 之 处 是 ， 如 果 消 息 不 是 发 送 给 相 邻 节点 ， 必 须 经 过 多 个 
节点 ， 这 会 导致 更 长 的 延迟 。 事 实 上 ， 线 性 阵列 的 网 络 直径 ， 也 即 最 坏 情 况 下 到 达 目 的 节点 所 
需要 的 跳 数 ， 达 到 了 N -1。 此 外 ,线性 阵列 的 对 分 带宽 也 比较 差 ， 因 为 移 除 任意 一 个 链 路 都 
会 将 线性 阵列 切 分 成 两 个 部 分 。 


+-» oF 


a ) 线性 列 阵 


ok + 


b ) 环 
图 6-8 一 维 直接 网 络 拓扑 结构 


为 了 降低 网 络 直径 ， 提 供 更 高 的 对 分 带宽 ， 线 性 阵列 网 络 可 以 通过 增加 一 个 环绕 的 链 路 转 
换 成 环 网 络 ， 如 图 6-8b 所 示 ， 环 网 络 本 质 上 是 将 两 个 端 直 接连 起 来 的 线性 阵列 网 络 。 增 加 的 
这 个 链 路 有 效 地 将 网 络 直径 缩减 为 原来 的 一 半 ， 并 且 将 对 分 带宽 扩大 为 原来 的 两 倍 。 环 绕 链 路 
不 需要 比 其 他 的 链 路 更 长 ， 通 过 合理 的 布局 ， 可 以 使 得 环 中 的 所 有 链 路 都 一 样 长 度 。 不 过 ， 随 
着 节点 数目 的 增加 ， 环 网 络 中 有 限 的 对 分 带宽 依然 会 限制 它 的 性 能 。 下 面 介绍 其 他 具有 更 高 对 
分 带宽 的 直接 网 络 拓扑 结构 。 

Mesh 和 Torus 网 络 

一 个 可 以 大 幅 增加 对 分 带宽 和 易于 控制 延迟 的 方法 是 ， 将 节点 从 单一 维度 〈 比 如 阵列 或 者 
环 ) 组 织 成 多 维 的 列 阵 拓扑 结构 。 如 图 6-9a 所 示 ，mesh 结构 是 线性 列 阵 在 二 维 结构 上 的 简单 
扩展 。 假设 有 行 ， 每 行 有 nn 个 节点 ,在 网 格 中 ,假如 不 是 外 部 设备 节点 ， 那 么 这 个 节点 就 可 
以 和 它 周围 的 4 个 节点 互相 通信 。 整 个 网 络 的 对 分 带宽 为 n， 且 和 节点 数目 以 平方 根 的 速度 增 
长 ， 而 网 络 直径 〈 即 最 坏 情况 下 延迟 的 度量 标准 ) 是 2(N -1)， 且 也 是 随 着 节点 数 以 平方 根 
的 速度 增加 。 和 一 维 中 形成 环 的 方法 类 似 ， 可 以 用 水 平和 垂直 的 链 路 将 尾 端的 节点 连接 起 来 ， 
从 而 达到 降低 网 络 直径 、 提 高 对 分 带宽 的 目的 。 经 过 这 种 改进 后 的 Mesh 结构 叫 作 torus 结构 ， 
如 图 6-9b 所 示 。 它 将 网 络 直径 减 半 ， 将 对 分 带宽 提升 为 原来 的 两 倍 。Torus 可 以 认为 是 在 二 维 
的 结构 中 向 入 了 一 系列 水 平 或 者 垂直 的 环 。 

(V3 计算 一 个 连接 64 个 节点 的 torus 结构 的 网 络 直径 和 对 分 带宽 ， 假 定 每 个 链 路 的 带 
宽 为 b。 

64 个 节点 被 组 织 成 8 x8 的 阵列 。 在 mesh 结构 下 ， 最 长 的 路 径 为 对 角 线 上 节点 之 间 的 路 
由 ， 而 在 torus 结构 下 ， 数 据 包 可 以 从 最 左下 角 经 过 两 跳 路 由 到 最 右上 角 。 与 mesh 结构 不 同 的 
是 ，torus 结构 的 最 长 路 径 是 ， 当 数据 包 从 一 个 角落 中 的 节点 路 由 到 torus 中 间 节 点 的 时 候 出 现 
的 。 在 一 个 nxn 的 torus 中 ， 这 样 的 数据 包 一 共 经 过 了 mm -2 个 链 路 ， 也 就 是 说 ， 对 于 8 x8 的 
torus 来 说 需要 6 跳 ， 因 此 我 们 可 以 得 到 网 络 直径 的 值 为 6。 此 外 , 为 了 将 这 个 网 络 分 割 成 两 个 
同 构 的 子 网 络 ， 必 须 移 除 2n 个 链 路 ， 因 此 对 分 带宽 为 2%%， 对 于 8 x8 的 torus 结构 来 说 ， 就 是 
1610 。 可 
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a ) mesh 结 构 b ) torus 结 构 
图 6-9 连接 入 =n xz 个 节点 的 二 维 直接 网 络 拓扑 结构 
超 立 方 体 和 kk 元 n 维 立方 


超 立 方 体 (hypercube) 是 一 种 具有 良好 延迟 和 带宽 表现 的 互连网 络 拓扑 结构 ， 它 是 一 个 n 
维 的 立方 体 ， 且 在 每 个 维度 只 有 两 个 节点 。 图 6-10a 所 示 是 三 维 超 立方 体 网 络 ， 我 们 将 这 三 个 
维度 分 别 标记 成 了 ，Y，2。X 维 是 水 平 坐标 轴 ( 左 / 右 ) ，7 维 是 垂直 坐标 轴 (十 /下 )，2Z 维 是 
垂直 于 和 和 了 坐标 轴 的 水 平面 (前 /后 ) ， 如 图 6-10a 所 示 。 WN 维 的 超 立方 体 网 络 可 以 连接 
N=2" 个 节点 ， 网 络 直径 为 log,N =n， 对 分 带宽 为 N/2。 相 比 于 torus 结构 ， 超 立方 体 网 络 有 更 
优 的 网 络 直径 ， 其 大 小 随 节点 数 按 对 数 关系 增长 。 此 外 ， 超 立方 体 的 对 分 带宽 随 节点 数 线性 增 
长 。 不 过 ， 每 个 节点 的 交换 度数 (端口 数目 ) 随 着 维度 线性 增长 ， 这 导致 当 节点 数目 较 多 时 ， 
超 立 方 体 网 络 就 不 再 那么 有 优势 了 。 比 如 ， 当 连接 256 个 节点 时 ， 超 立方 体 网 络 必 须 有 8 个 维 
度 ， 这 样 每 个 节点 的 交换 度数 将 达到 8。 此 外 ， 高 维度 的 超 立方 体 也 很 难 摆 放 成 二 维 或 者 三 维 
的 形式 ， 这 导致 我 们 很 难 使 用 较 短 的 链 路 。 





a ) 3D 立 方 体 网 络 b ) K 元 三 维 立方 
图 6-10“ 三 维 直接 网 络 拓扑 结构 


环 、torus 以 及 超 立 方 体 这 三 种 结构 都 属于 直接 互连网 络 拓扑 结构 中 的 一 类 ， 叫 作 大 元 对 维 
立方 (hk-ary n-cube) 结构 ，n 代表 着 维度 ,代表 在 每 一 个 维度 上 的 节点 数 。 在 这 种 命名 方法 
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中 , nxn 的 torus 可 以 命名 为 n 元 二 维 立方 ,n 维 的 超 立 方 体 网 络 可 以 命名 为 二 元 n 维 立方 。 
正如 我 们 将 在 6.5 节 中 介绍 的 ， 所 有 上 元 n 维 立 方 的 拓扑 结构 都 存在 一 些 简单 的 路 由 算法 。 
图 6-10b 显示 了 一 个 元 三 维 立方 结构 ， 它 是 由 此 个 xk 的 torus 结构 逐个 堆积 起 来 的 。 在 每 
个 平面 中 ,任意 两 个 相 邻 节点 间 都 有 一 条 链 路 ， 在 相 邻 平面 的 节点 之 间 也 有 一 条 链 路 。 和 二 维 
torus 类 似 ， 在 水 平平 面 和 垂直 平面 的 尾 端 节点 之 间 也 存在 着 一 条 链 路 。 

在 本 节 最 后 ， 我 们 将 几 种 流行 的 直接 网 络 拓扑 结构 的 拓扑 特性 进行 对 比 ， 如 表 6-1 所 示 。 
有 趣 的 是 ， 我 们 发 现 不 同 的 拓扑 结构 表现 出 完全 不 同 的 特征 ， 比 如 在 网 络 直径 《延迟 ) 、 对 分 
宽度 (带宽 ) 以 及 交换 度数 (成 本 ) 等 方面 都 表现 得 各 不 相同 。 这 个 对 比 形象 地 说 明了 现实 
中 没有 放 之 四 海 而 丝 准 的 拓扑 结构 ， 性 能 、 成 本 和 可 扩展 性 之 间 总 是 需要 互相 平衡 和 取舍 的 。 
还 有 一 点 需要 注意 ， 正 如 我 们 之 前 说 过 的 ， 诸 如 网 络 直 径 和 对 分 宽度 这 样 的 简单 拓扑 度量 标准 
可 以 用 来 对 比 不 同 结构 下 的 延迟 和 带宽 ， 但 是 在 使 用 时 必须 十 分 小 心 ， 这 些 度量 标准 描述 的 是 
最 坏 情 况 下 的 行为 ， 因 为 它们 反映 的 是 距离 最 远 却 又 频繁 通信 的 节点 之 间 的 延迟 和 带宽 。 


表 6-1 不 同 拓扑 结构 下 的 人 节点 互连网 络 特征 对 比 
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6.5 路 由 技术 


这 一 节 我 们 将 介绍 把 数据 包 从 源 节点 传输 到 目的 节点 的 各 种 路 由 方法 。 在 6. 5.1 节 ， 我 们 
将 回顾 6. 4 节 中 描述 的 拓扑 结构 所 用 到 的 常见 路 由 算法 。 路 由 算法 容易 出 现 死 锁 的 问题 ， 不 
过 ,通过 一 些 强制 的 限定 条 件 ， 死 锁 的 出 现 是 可 以 避免 的 (在 6.5.2 节 介 绍 )。6.5.3 节 将 介 
绍 虚 通道 技术 ， 这 种 技术 使 得 路 由 算法 更 加 灵活 ， 同 时 还 能 避免 死 锁 。 最 后 在 6. 5.4 节 ， 我 们 
简单 介绍 一 下 自 适 路 由 技术 。 


6. 5.1 路 由 算法 \ 


不 管 采用 什么 样 的 交换 策略 〈 电 路 交换 策略 或 者 是 数据 包 交 换 策略 ) ， 路 由 消耗 的 时 间 都 
是 在 数据 包 传输 的 关键 路 径 上 ， 这 会 对 延迟 产生 直接 影响 ， 因 此 ， 路 由 算法 一 定 要 尽 可 能 简 
单 ， 这 样 才能 尽 可 能 减少 开销 。 在 LAN 和 WAN 网 络 中 ,一 种 简单 的 路 由 算法 是 在 每 个 路 由 器 
中 执行 查 表 操作 。 由 于 开销 太 大 ， 这 种 基于 查 表 的 方法 在 OCN 以 及 SAN 网络 中 很 少 采 用 。 在 
这 一 节 ， 我 们 介绍 一 些 简单 并 且 对 延迟 影响 较 小 的 路 由 算法 。 

交换 器 是 所 有 互连网 络 的 基本 组 成 部 件 ， 因 此 在 交叉 开关 网 络 中 ， 应 该 首先 明确 数据 包 是 
如 何 从 输入 端口 路 由 到 输出 端口 的 。 假 如 交换 度数 为 k， 那 么 确定 数据 包 从 输入 端口 到 输出 端 
口 的 路 由 需要 log,k bit 来 表示 ， 对 于 2 x2 的 交叉 开关 来 说 ， 也 就 是 说 需要 1bit 来 表示 路 由 。 例 
如 , 对 于 图 6-6b 所 示 欧 米 茄 网 络 中 的 2 x2 交叉 开关 网 络 ， 一 个 地 址 位 就 能 决定 数据 包 是 送 往 
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上 面 的 端口 还 是 下 面 的 端口 。 

在 MIN 中， 如 图 6-6b 中 的 欧米 茄 网 络 ， 可 以 使 用 目的 地 址 作为 路 由 地 址 将 数据 包 从 节点 4 
路 由 到 节点 B。 带 有 N =2" 个 节点 的 欧米 茄 网 络 ， 数 据 包 的 目的 地 址 为 刀 = <d,_,, d,;，,，…， 
d, > ， 路 由 算法 如 下 : 从 源 节点 到 目的 节点 被 标记 为 0 到 nn-1 共 n 级 , 在 第 n-1-i 级 中 , 目 
的 地 址 (d,) 的 第 i 个 比特 位 用 来 决定 数据 包 是 被 路 由 到 上 面 的 输出 端口 (路 由 比特 位 为 0) 
还 是 下 面 的 输出 端口 (路 由 比特 位 为 1)。 因 此 ， 当 数据 包 从 源 节 点 路 由 到 目的 节点 时 , ' 目 的 
地 址 对 应 的 比特 位 依次 从 最 高 有 效 位 查找 到 最 低 有 效 位 。 

在 图 6-6b 中 的 欧米 匣 网 络 中 ， 通 过 路 由 地 址 确定 从 节点 4 到 节点 6 的 数据 包 路 由 
过 程 。 

图 中 目的 节点 6 对 应 的 地 址 是 110， 由 于 两 个 最 高 有 效 位 都 为 1， 因 此 数据 包 在 前 两 级 均 
被 路 由 到 下 面 的 输出 端口 ， 最 低 有 效 位 为 0， 因 此 在 最 后 一 级 ， 数 据 包 路 由 到 上 面 的 输出 端 
口 。 图 6-6b 显示 了 数据 包 从 节点 4 传输 到 节点 6 的 路 由 过 程 。 4 

针对 图 6-7b 所 示 的 蝶 形 网 络 进行 数据 包 路 赴 时; :我们 考虑 另外 一 种 算法 : 路 由 地 址 使 用 
将 源 地 址 和 目的 地 址 按 位 异 或 得 到 的 相对 地 址 ， 而 不 是 直接 使 用 目的 地 址 。 假 如 源 和 目的 地 址 
分 别 为 4 和 B， 那 么 路 由 地 址 R=4 XOR B，XOR 表示 按 位 异 或 。 在 包含 V=2" 个 节点 的 蝶 形 
网 络 中 ， 路 由 算法 如 下 : 假定 从 源 到 目的 节点 之 间 的 n 级 分 别 标 记 为 0~n -1， 源 和 目的 地 址 
异 或 得 到 的 路 由 地 址 R= <7,_, ,7r,_，，…，ro。 > ， 这 个 路 由 地 址 (7,) 的 第 i 个 比特 位 用 来 控制 
第 i 级 的 路 由 ， 这 位 为 0 时， 数据 包 就 采用 直通 路 由 的 方式 ; 为 1 时， 就 采用 交错 路 由 的 方式 。 
假如 数据 包 从 0 号 输入 端口 进入 并 且 路 由 器 设置 成 直通 方式 ， 那么 数据 包 将 发 送 到 0 号 输出 端 
口 。 如 果 交 换 器 设置 成 交错 方式 ， 那 么 0 号 端口 (上面 的 输入 端口 ) 进入 的 数据 包 将 从 1 号 端 
口 (下 面 的 输出 端口 ) 输出 , 而 1 号 端口 (下 面 的 输入 端口 ) 输入 的 数据 包 将 从 0 号 端口 
(上 面 的 输出 端 日 ) 输出 。 

事实 上 ， 基 于 源 和 目的 相对 地 址 的 路 由 算法 在 包括 线性 阵列 、mesh 以 及 超 立 方 体 在 内 的 
大 量 互连网 络 中 被 广泛 采用 。n xm 的 mesh 网 络 中 有 一 种 非常 流行 的 路 由 算法 叫 作 维度 优先 路 
由 ， 这 就 是 一 个 很 好 的 例子 。 在 这 种 路 由 算法 中 ， 所 有 节点 使 用 x 和 y 坐标 标记 。 比 如 ， 在 图 
6-9a mesh 中 的 左下 角 的 节点 坐标 为 (0，0) ， 右 上 角 的 节点 坐标 为 (n -1，n -1)。 从 节点 
A(x，Yi) 传 输 到 节点 B(xs。，ys) 的 数据 包 的 路 由 地 址 为 相对 地 址 R= (xs -x、，Ys -yi)。 在 
维度 优先 路 由 算法 中 ,数据 包 先 在 x 维 上 进行 路 由 ， 然 后 在 y 维 上 进行 路 由 ， 这 种 方法 可 以 扩 
展 到 任意 维度 。 

每 个 交换 单元 上 的 路 由 决策 非常 简单 ， 只 要 相对 地 址 的 * 维 坐 标 不 为 零 ， 那 么 数据 包 就 在 
x 维 上 路 由 ， 如 果 * 坐标 比 零 大 ， 那 么 数据 包 在 x 的 正 向 路 由 ， 并且 相对 地 址 的 * 坐标 递减 。 
如 果 * 坐标 比 零 小 ， 那 么 数据 包 在 * 的 负 方 向 路 由 ， 并 且 相 对 地 址 的 x 坐标 递增 。 当 % 坐标 变 
成 零 ， 那 么 数据 用 同样 的 方式 在 y 维 上 路 由 。 当 相对 地 址 中 的 x 和 y 坐标 都 变 成 零 了 ， 数据 包 、 
就 到 达 了 目的 地 并 被 注入 目的 节点 。 可 以 看 到 ， 交 换 器 中 的 路 由 只 需 查 看 相对 的 路 由 地 址 并 进 
行 递增 或 者 递减 ， 这 种 路 由 开销 很 小 。 

请 描述 在 图 6-2 的 mesh 结构 中 ， 数 据 包 从 节点 4 传输 到 节点 B 的 路 由 过 程 。 

节点 4 和 B 的 坐标 分 别 为 (1,0) 和 (3，1) ， 相 对 地 址 为 (2，1) ， 因 此 ， 数 据 包 先 在 
下 维 正 向 《 东 ) 跳 两 步 ， 然 后 左 拐 向 了 维 正 向 〈 北 ) 传输 达到 节点 B。 4 

对 于 超 立 方 网 络 ， 在 每 个 维度 上 只 有 两 个 节点 ， 和 蝶 形 网 络 一 样 ， 相 对 地 址 由 源 地 址 和 目 
的 地 址 按 位 异 或 得 到 。 以 图 6-10a 中 所 示 的 三 维 超 立 方 网 络 为 例 ， 数 据 包 从 节点 A(1, 0, 0) 
传输 到 节点 B(0，1 ，1)， 相 对 地 址 R=(1, 0, 0)XOR(0, 1, 1) =(1, 1，1)。 因 此 ， 数 据 包 


互 过 网 络 231 








先 在 x 维 移动 ， 然 后 在 y 维 移动 ， 最 后 在 z 维 上 沿 着 加 粗 路 线 移动 。 这 种 路 由 算法 是 专门 应 用 
于 超 立 方 网 络 的 一 种 特殊 维度 优先 路 由 算法 ， 称 为 e- 立 方 路 由 算法 。 


6. 5.2 ” 死 锁 避免 和 确定 性 路 由 


除了 实现 简单 ， 维 度 优先 路 由 还 可 以 避免 死 锁 。 死 锁 指 的 是 多 个 请 求 之 间 互 相 阻塞 导致 谁 
也 无 法 继续 执行 。 图 6-11a 显示 了 在 mseh 网 络 中 出 现 死 锁 的 一 种 情况 ， 图 中 每 个 节点 都 试图 
向 它 的 对 角 节 点 发 送 一 个 数据 包 。 发 送 数据 包 需 要 占用 一 定 资源 ， 包 括 一 条 物理 链 路 和 下 一 个 
交换 器 用 于 存储 流 控 单 元 的 缓冲 空间 ， 比 如 从 节点 (0，0) 向 节点 (1，1) 发 送 数据 包 时 ， 
首先 需要 在 节点 〈0，0) 和 节点 〈0，1) 之 间 分 配 一 条 链 路 ， 并 且 在 节点 (0，1) 的 交换 器 
中 分 配 一 块 缓冲 空间 。 节 点 (0，1) 上 会 出 现 两 个 数据 包 同时 竞争 同一 个 输出 端口 的 情况 ， 这 
时 只 有 一 个 能 够 竞争 胜出 。 在 这 里 是 节点 (0, 1) 注入 的 数据 包 胜 出 了 ， 因 此 来 自 节 点 
(0，0) 的 数据 包 会 被 阻塞 。 其 他 节点 也 会 重复 类 似 的 行为 ， 比 如 ,节点 (0, 1) 注入 的 数据 
包 也 会 和 节点 〈1，1) 注入 的 数据 包 竞争 节点 (1,，1) 的 同一 个 输出 端口 ， 前 者 竞争 失败 被 
阻塞 ， 最 终 所 有 节点 形成 一 个 循环 依赖 链 ， 使 得 所 有 的 数据 包 都 被 阻塞 住 。 


(0,1) xtoy (1,1) 
yto dest. yto dest. 


(0,0) xtoy (1,0) 
b ) 死 锁 避免 ( xy 路 由 ) 


二 上 村 
(ce; oa) (c) CC» @ 
c ) 通道 依赖 图 ( 无 限制 路 由 ) d ) 通道 依赖 图 ( xy 路 由 ) e ) 通道 依赖 图 ( yx 路 由 ) 


图 6-11 死 锁 和 通道 依赖 图 


上 面 的 情况 之 所 以 出 现 死 锁 ， 其 问题 在 于 ， 当 节点 (0，1) 注入 的 数据 包 按照 先 x 维 后 7 
维 的 策略 路 由 时 ， 节 点 (0, 0) 注入 的 数据 包 却 是 先 y 维 后 % 维 路 由 。 如 果 所 有 的 数据 包 都 是 
先 * 维 后 y 维 路 由 ， 并 且 链 路 是 双向 的 ,那么 死 锁 就 不 会 发 生 ， 如 图 6-11b 所 示 。 和 图 6-11a 
不 同 的 是 ， 节 点 (0, 0) 注入 的 数据 包 现在 通过 节点 (1，0) 路 由 到 目的 节点 〈1，1) ， 达 到 
目的 节点 后 就 可 以 从 IN 中 删除 了 。 因 为 数据 包 有 规律 地 先 从 * 维 路 由 ， 再 从 7 维 路 由 ， 这 一 
过 程 不 会 建立 循环 依赖 链 ， 因 此 死 锁 也 就 不 会 发 生 。 

对 上 述 问 题 的 定义 可 以 这 样 描述 : IN 是 由 通道 组 成 ， 而 通道 是 两 个 相 邻 交换 器 之 间 的 互 
连通 路 ， 以 及 接收 端 交换 器 中 用 来 保存 fit 的 缓冲 空间 。 通 道 是 当 数据 包 从 一 个 交换 器 传输 到 
另 一 个 交换 器 时 分 配 的 资源 ， 它 和 链 路 有 明显 区 别 : 通道 是 一 种 多 辑 连接 ， 而 链 路 是 一 种 物理 
连接 ， 在 同一 个 物理 链 路 上 可 能 会 有 多 个 通道 。 实 际 上 ， 这 也 是 图 6-11b 中 所 默认 的 假定 ， 通 
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过 对 链 路 的 分 时 复 用 ， 两 个 数据 包 可 以 在 相同 物理 链 路 的 两 个 不 同方 向 上 同时 传输 。 

分 析 是 否 会 出 现 死 锁 方法 之 一 是 借助 通道 依赖 图 ， 图 中 的 顶点 代表 通道 ， 两 个 通道 4 和 B 
之 间 的 有 向 边 表示 占据 通道 4 的 数据 包 可 以 随后 路 由 到 通道 B。 图 6-11a 中 通道 用 C。、C、 
C,、Cs 表示 ，C; 和 Ci 之 间 的 边 表示 根据 路 由 数据 包 先 使 用 GC; 然后 使 用 Ci。 在 图 6-11b 中 ， 数 
据 包 可 以 首先 在 节点 (0; 0) 和 节点 (1,，0) 直接 路 由 ,然后 再 在 节点 (1,，0) 和 节点 (1， 
1) 之 间 路 由 。 这 一 合法 路 由 在 图 6-11d 中 表示 成 通道 依赖 图 中 C 和 C, 之 间 的 一 条 边 。 如 果 
是 无 限制 路 由 ,那么 会 形成 图 6-1tie 所 示 的 通道 依赖 图 。 如 果 这 个 图 是 有 环 的 ， 那么 就 意味 着 
可 能 发 生死 锁 。 与 之 相反 ,如 果 通 道 依 赖 图 是 无 环 的 ， 那 么 死 锁 就 不 会 发 生 。 正 如 维度 优先 路 
由 策略 那样 ， 如 果 对 路 由 进行 限制 ; 使 得 数据 包 必 须 先 在 ww 维 路 由 然后 再 在 y 维 路 由 ， 那 么 通 
道 依赖 图 就 会 是 无 环 的 。 图 6-11d 和 图 6-11e 分 别 显 示 了 xy 路 由 和 yx 路 由 算法 下 的 通道 依赖 
图 ;它们 都 不 存在 环 。 

虽然 限制 路 由 选择 可 以 避免 死 锁 ， 但 它 会 导致 互连网 络 的 带宽 无 法 充分 利用 。 比 如 ， 在 
图 6-11a 中 ,节点 (0, 0) 注 人 的 数据 包 要 发 送 到 节点 (1,，1), 在 xy 的 路 由 策略 下 ， 它 必须 
首先 经 过 C; 通道 ,假如 Cs 这 时 候 处 于 忙碌 状态 ， 这 时 候 如 果 能 使 用 通过 Cu 和 C, 的 其 他 路 由 
算法 ， 无 疑 是 更 理想 的 。 


6. 5.3 放松 路 由 限制 : 虚 通 道 和 转弯 模型 


我 们 已 经 看 到 ， 如 果 对 数据 包 人 允许 使 用 的 路 由 算法 进行 限制 ,使 得 资源 可 以 有 组 织 地 分 配 
从 而 避免 在 通道 依赖 图 中 出 现 环 ;那么 就 可 以 避免 死 锁 的 发 生 。 在 网 络 中 资源 分 配 的 实体 是 通 
道 ， 它 包含 一 条 链 路 以 及 在 接收 端 交换 器 上 的 物理 缓冲 区 。 在 直通 式 交换 策略 下 ,通常 是 在 接 
收 端 交换 器 上 为 整个 数据 包 分 配 缓冲 区 ， 或 者 是 将 数据 包 阻塞 在 发 送 端的 交换 器 上 ， 这 是 因为 
在 直通 式 交换 策略 下 ，flit 包含 了 整个 数据 包 。 与 之 相反 ， 在 虫 洞 交 换 策略 中 ， 只 需要 为 携带 
路 由 信息 的 一 少数 几 个 phit 分 配 缓冲 区 空间 就 可 以 ， 因 为 在 虫 洞 交换 策略 下 ， 这 是 流 控 的 。 

到 现在 为 止 ， 我 们 一 直 假 定 缓冲 区 是 物理 资源 ， 通 道 也 是 物理 上 的 ， 然 而 通道 的 概念 是 可 
以 虚拟 化 的 ， 也 即 虚 通道 (virtual channel) 。 在 两 个 物理 交换 器 之 间 的 多 个 虚 通 道 以 及 在 不 同 
虚 通道 上 路 由 的 数据 包 不 会 同时 占用 相同 的 物理 资源 。 虚 通道 由 于 有 了 更 多 的 可 用 资源 ， 因 此 
可 以 消除 通道 依赖 图 中 的 环 。 为 了 支持 多 个 虚 通道 ， 交 换 器 中 需要 为 每 个 虚 通 道 配 备 一 个 专门 
的 物理 输入 缓冲 区 ， 这 个 缓冲 区 不 小 于 流 控 单元 的 大 小 。 

假如 任意 两 个 节点 之 间 有 两 个 虚 通 道 ， 记 为 C 和 Ci:。C; 和 C; 的 路 由 策略 可 以 是 xy 的 
(如 图 6-11d)。C: 和 C; 的 路 由 选择 可 以 是 yx (如 图 6-11e) 。 在 xy 路 由 策略 或 者 yx 路 由 策略 下 
要 想 避 免 死 锁 ， 需 要 引入 两 个 限制 : 首先 ， 任何 数据 包 的 路 由 策略 必须 符合 xy 或 者 yx 路 由 ; 
其 次 ， 只 能 允许 数据 包 从 xy 到 yx (或 者 yx 到 xy) 切换 一 次 。 比 如 ， 假 定 所 有 的 数据 包 一 开始 
都 使 用 xy 路 由 策略 ， 它 们 中 的 任何 一 个 都 可 以 根据 需要 自由 地 切换 成 yx 路 由 ,但 提前 是 它们 
之 后 不 会 再 切换 回 xy 路 由 。 这 可 以 看 成 是 维度 优先 路 由 策略 从 二 维 到 三 维 的 一 个 扩展 。 比 如 ，、 
数据 包 在 第 一 组 虚 通 道中 首先 用 xy 路 由 ; 然后 数据 包 可 以 在 第 二 组 分 配给 yx 路 由 的 虚 通道 中 
切换 到 yx 路 由 。 可 以 看 到 ， 基 于 C .和 C' 通 道 构造 的 通道 依赖 图 中 是 没有 环 的 ， 因 此 不 会 出 现 
死 锁 。 可 见 虚 通道 可 以 在 避免 死 锁 的 前 提 下 消除 一 些 路 由 限制 ， 因 此 可 以 在 流量 热点 区 域 或 者 
存在 故障 的 交换 区 域 提供 更 加 灵活 的 数据 包 路 由 策略 。 

虚 通道 是 一 种 通过 移 除 通道 依赖 图 中 的 环 来 避免 死 锁 的 通用 设计 方法 ， 此 外 ,也 还 有 其 他 
一 些 方法 可 以 消除 死 锁 ， 一 种 常用 的 方法 是 转弯 模型 。 还 是 以 二 维 mesh 网 络 为 例 ， 完 全 无 限 
制 路 由 算法 允许 数据 包 采 用 8 个 不 同 的 转弯 方向 ; 而 xy( 或 者 yx) 路 由 策略 将 转弯 方向 的 数目 
限制 到 4 个 : 从 +/=-x 到 +/-Y( 或 者 从 +/ -yy 到 +/ -xz)， 如 图 6-12a (或 者 图 6-12b) 所 示 。 
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这 里 的 + 和 -= 符号 代表 数据 包 的 传输 方向 ， 比 如 -x 表示 朝 x 的 负 方 向 。 那么 接 下 来 的 问题 是 ， 
在 避免 死 锁 的 前 提 下 ， 能 否 在 转弯 数目 上 做 尽 可 能 少 的 限制 。 


Xto dest. 


(0,1) (1,1) (0,1) (1,1) 


yto dest. yto dest. ytox 


(0,0) xtoy (1,0) (0,0) Xto dest. (1,0) 





a) Xy 路 由 下 允许 的 转弯 b )3x 路 由 下 允许 的 转弯 


(0,1) (1,1) (0,1) (1,1) 


(0,0) (1,0) (0,0) (1,0) 
Cc) 西向 优先 ( 逆 时 针 方向 ) 路 由 下 允许 的 转弯 d 】 西向 优先 ( 顺 时 针 方 向 ) 路 由 下 允许 的 转弯 


图 6-12 不 同 路 由 算法 中 允许 的 转弯 情况 


基于 转弯 模型 ， 可 以 实现 很 多 相 比 维度 优先 路 由 算法 限制 更 少 的 其 他 路 由 算法 。 西 向 优先 
路 由 算法 就 是 一 个 例子 ， 它 支持 的 合法 (无 死 锁 ) 转弯 方向 如 图 6-12e 和 6-12d 所 示 。 从 算法 
命名 中 可 以 看 出 ,在 西向 优先 路 由 中 ， 假 如 目的 节点 在 源 节点 的 西 人 出， 那么 数据 包 首 先 在 向 西 
的 方向 上 路 由 。* 比如 在 图 6-12c 中 ,可 以 看 出 ,假如 数据 包 从 节点 (1; 0) 到 节点 (0, 1)， 
路 由 是 不 允许 经 过 节点 (1，1) 的 。 正 如 图 6-12d 所 示 ， 数 据 包 必须 先 向 西 移动 通过 节点 (0， 
0) ， 然 后 再 向 北 移动 。 在 西向 优先 的 路 由 选择 中 ，8 个 可 能 的 转弯 方向 中 只 有 两 个 被 禁止 了 ， 
这 比 xy 或 者 yx 的 路 由 算法 更 加 灵活 。 


6. 5.4 ”进一步 放松 的 路 由 算法 : 自 适 应 路 由 


从 前 面 的 介绍 中 可 以 看 到 诸如 维度 优先 路 由 这 样 的 确定 性 路 由 算法 的 一 个 好 处 是 ， 它 能 
保证 不 出 现 死 锁 ; 另 一 个 好 处 是 ， 它 能 保证 所 选 的 路 由 是 从 源 节点 到 目地 节点 的 所 有 路 径 中 最 
短 的 。 实 际 上 ,确定 路 由 算法 总 是 可 以 保证 路 由 在 一 定数 量 的 步 数 之 后 能 够 完成 。 如 果 要 支持 
更 多 的 合法 路 由 ， 一 个 基本 的 问题 是 要 保证 数据 包 朝 着 目的 节点 的 方向 前 进 ， 如 果 做 不 到 这 一 
点 ， 那 么 就 可 能 出 现 活 锁 〈livelock) ， 在 最 坏 的 情况 下 ， 活 锁 可 能 会 导致 数据 包 一 直 在 共 中 传 
输 但 却 永 远 到 达 不 了 目的 节点 。 

确定 性 路 由 算法 也 有 缺点 。 第 一 个 缺点 是 ， 当 遇 到 网 络 竞争 的 时 候 ， 无 法 利用 网 络 中 的 空 
闲 资源 来 重新 路 由 数据 包 。 事 实 上 ， 它 们 的 确定 性 路 由 特性 可 能 会 促使 网 络 中 形成 流量 热点 区 
域 。 我 们 用 图 6-13 来 解释 这 一 现象 ,图 中 显示 了 所 有 的 节点 都 向 节点 X 发 送 一 个 数据 包 的 情 
况 。 假 如 X 包含 了 一 个 全 局 变量 ,而 在 临界 区 内 的 所 有 节点 都 要 对 这 个 变量 进行 递增 上述 情 
况 就 会 出 现 。 图 6-13a 的 箭头 显示 了 在 zy 路 由 选择 策略 中 ,数据 包 从 网 格 的 底部 那 一 行 开始 路 
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由 。 可 以 看 到 这 样 一 个 明显 的 现象 ， 那 就 是 维度 优先 路 由 中 的 确定 性 路 由 限制 很 容易 把 数据 包 
都 集中 在 可 用 链 路 的 一 个 很 小 子 集中 。 与 之 相反 ， 如 果 数 据 包 的 路 由 选择 没有 限制 ， 那 么 流量 
可 以 使 用 更 多 的 链 路 ， 如 图 6-13b 所 示 。 





b ) 自 适应 路 由 
图 6-13 确定 性 路 由 形成 的 热点 竞争 


除了 上 面 讲 到 的 无 法 完全 利用 网 络 带宽 的 问题 ， 确 定性 路 由 的 第 二 个 缺点 是 无 法 应 对 网 络 
故障 。 假 如 某 个 交换 器 出 现 功能 故障 ， 确 定性 路 由 策略 下 是 无 法 利用 IN 中 相连 的 其 他 路 由 的 。 
如 果 有 一 个 更 加 灵活 的 路 由 算法 ， 那么 网 络 带宽 的 利用 也 会 更 加 高 效 ， 而 且 也 能 设计 出 有 效应 
对 网 络 故障 的 策略 。 要 实现 上 述 目标 ， 我 们 所 需要 的 是 设计 一 个 路 由 算法 ， 可 以 动态 更 改 路 由 
策略 ， 它 可 以 根据 临时 的 流量 热点 或 者 永久 的 IN 组 件 故障 动态 地 调整 路 由 策略 ， 这 种 路 由 算 
法 称 作 自 适应 路 由 算法 。 

在 本 节 中 ,我 们 已 经 描述 了 利用 虚 通 道 构建 自 适 应 路 由 算法 的 一 个 大 体 框架 。 借 助 于 虚 通 
道 ; 我 们 有 可 能 设计 出 一 种 无 死 锁 上 且 能 灵活 应 对 流量 热点 和 -IN 组 件 故 障 的 路 由 算法 。 比 如 当 
数据 包 到 达 的 交换 器 由 于 临时 流量 高 峰 而 出 现 激烈 竞争 时 ， 或 者 原先 路 由 上 的 交换 器 出 现 故 障 
时 ， 利 用 两 组 虚 通 道 就 可 以 从 xy 路 由 切换 到 yx 路 由 (但 是 不 能 再 切换 回来 ) 。 

通常 情况 下 ， 自 适应 路 由 算法 更 加 复杂 ; 这 可 能 会 对 网 络 延 迟 产 生 负 面 影响 。- 


6.6 交换 架构 


本 章 最 后 讨论 的 是 交换 单元 〈 即 交换 器 ) 的 设计 ， 这 部 分 内 容 非 常 重要 ， 因 为 交换 器 实 
现 了 从 源 节 点 到 目的 节点 路 由 数据 包 的 所 有 功能 。 

图 6-14 显示 了 一 个 4x4 交换 器 的 主要 部 件 。 
交换 器 的 中 心 部 件 是 交叉 开关 (在 6.4.1 节 介 绍 
过 ) ， 交 叉 开 关 的 每 个 输入 和 输出 端口 都 连接 着 
一 个 缓冲 区 。 交 换 器 使 用 在 6. 3 节 和 6.5 节 介 绍 
过 的 任意 一 种 交换 策略 和 路 由 技术 ， 将 数据 包 从 
输入 端口 路 由 到 输出 端口 。 虽 然 交 换 器 的 功能 看 
起 来 比较 简单 ， 但 是 要 满足 低 延 迟 和 高 带宽 的 要 
求 ， 还 是 需要 仔细 若 酌 所 有 的 设计 选项 。 为 了 描 
述 得 更 清晰 ， 我 们 对 一 个 通过 交换 器 的 数据 包 
进行 跟踪 。 在 直通 式 交换 策略 中 ， 只 有 当 输 入 
端口 有 足够 的 缓冲 区 来 缓存 整个 数据 包 的 时 候 ， 
数据 包 才 从 一 个 交换 器 传输 到 另 一 个 交换 器 。 图 6-14 4x4 交换 器 架构 
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与 之 相反 ， 在 虫 洞 交换 策略 中 ， 只 要 缓冲 区 能 够 存 下 带 有 路 由 信息 的 少数 几 个 phit 时 ， 数 据 
包 才 可 以 传输 到 下 一 个 交换 器 。 当 路 由 信息 到 达 交 换 器 后 ， 数 据 包 就 开始 仲裁 交叉 开关 的 
输出 端口 。 当 交叉 开关 的 输出 端口 就 绪 时 ， 数 据 包 就 路 由 到 选中 的 输出 端口 ， 并 决定 是 否 
需要 先 缓存 下 来 。 

在 每 个 交换 器 设置 缓冲 区 是 非常 重要 的 ,这 种 设计 可 以 有 效 缓解 现实 中 难免 会 出 现 的 流量 
高 峰 问题 。 在 交换 器 内 设置 缓冲 区 有 3 个 不 同 的 选项 : 在 输入 端口 设置 缓冲 区 ， 在 输出 端口 设 
. 置 缓冲 区 ， 同 时 在 输入 端口 和 输出 端口 都 设置 缓冲 区 。 在 输入 端口 设置 缓冲 区 的 优点 是 ， 只 要 
接收 交换 器 有 足够 的 空间 缓存 流 控 单 元 〈 人 tb) ， 数 据 包 就 可 以 一 直 发 送 过 去 。 不 过 ， 数 据 包 要 
想 继续 往 前 传输 的 话 ， 还 需要 再 赢得 输出 端口 的 仲裁 权 。 假 设 有 两 个 数据 包 和 和 了， 现在 都 缓 
存在 图 6-14 所 示 的 In0 输入 缓冲 区 中 ,被 分 配 到 Oul ， 了 被 分 配 到 Ou0。 再 假设 了 不 能 进行 
路 由 ， 因 为 和 Inl 对 应 缓冲 区 中 的 数据 包 Z 也 被 分 配 到 0u0, 并 且 Z 已 经 在 仲裁 时 被 选中 了 。 
这 个 时 候 , Y 就 会 阻塞 住 了 ， 即 使 了 * 本 身 其 实 是 可 以 路 由 出 去 的 ， 因 为 没有 任何 数据 包 分 配给 
Oul。 除 了 阻塞 住 了 外 ,了 还 可 能 阻塞 住 同一 个 输入 缓冲 区 中 的 其 他 数据 包 。 这 个 例子 也 暴露 
了 输入 端口 设置 缓冲 区 的 一 个 缺点 ， 称 之 为 线头 (head-of-line，HOL) 阻塞 。 需要 注意 的 是 ， 
只 要 不 存在 竞争 ， 数 据 包 就 不 用 缓存 ， 缓 存 只 是 用 来 应 对 竞争 的 一 一 出 现 竞 争 时 ， 交 换 器 可 以 
暂时 缓存 对 应 交换 策略 下 的 ft。 

这 个 例子 也 暴露 了 另 一 个 性 能 上 的 问题 ， 那 就 是 在 每 个 交换 周期 ，n xz 的 交换 器 内 可 能 
会 有 nn 个 数据 包 竞 争 同一 个 输出 端口 。 理 想 情 况 下 ,为 了 避免 HOL 阻塞 ,交换 器 和 输出 缓冲 
区 执行 的 速度 应 该 是 交换 器 接收 数据 包 速 度 的 n 倍 。 解 决 方案 之 一 是 在 每 个 输入 端口 上 设置 和 
输出 端口 数 一 样 多 的 输入 缓冲 ， 这 样 ， 数 据 包 可 以 在 注入 某 个 输出 端口 对 应 的 输入 缓冲 之 前 就 
建立 好 路 由 。 但 是 这 个 解决 方法 的 问题 是 其 可 扩展 性 不 好 ， 对 于 一 个 个 输入 端口 和 个 输出 
端口 的 交换 器 来 说 ， 需 要 个 输入 缓冲 区 。 

6. 5.3 节 中 介绍 了 一 些 更 灵活 的 路 由 算法 ， 可 以 通过 支持 虚 通 道 提 高 网 络 的 利用 率 。 在 这 
种 情况 下 ， 每 个 虚 通 道 都 必须 配备 一 个 专门 的 物理 输入 缓冲 区 。 比 如 ， 假 定 图 :6-14 的 交换 器 
架构 支持 两 个 虚 通 道 ， 那 么 交叉 开关 的 每 一 个 输入 端口 都 需要 两 个 输入 缓存 区 。 

为 了 获得 更 高 的 数据 包 吞 吐 率 和 带宽 ， 有 必要 充分 利用 数据 包 处 理 过 程 中 的 大 量 并 行 
性 。 每 个 phit 可 以 分 多 步 处 理 : 首先 ， 对 携带 路 由 信息 的 数据 包头 部 进行 解析 ， 并 确定 这 个 
数据 包 路 由 的 输出 端口 ; 然后 ， 执 行 获 取 对 应 输出 端口 的 仲裁 ; 再 后 ， 头 部 被 转移 到 输出 
缓冲 区 ; 最 后 ， 当 目的 节点 交换 器 有 足够 空间 缓存 该 头 部 信息 对 应 的 fit 时 ， 数 据 包 头 部 被 
传输 到 目的 交换 器 中 。 数 据 包 的 其 他 phit 依据 设 定 的 交换 策略 紧 跟 头 部 phit 传输 。 因 此 ， 交 
换 器 可 以 通过 流水 的 方式 有 效 支 持 这些 传 输 步 又。 为 了 保证 较 高 的 流水 线 时 钟 频 率 ， 需 要 
确保 每 个 传输 步骤 尽 可 能 简单 ， 这 也 是 为 什么 使 用 低 延 迟 的 简单 路 由 策略 会 如 此 重要 。 除 
了 每 个 数据 包 的 处 理 过 程 可 以 并 行 流水 外 ， 多 个 数据 包 之 间 也 可 以 并 行 处 理 ， 因 为 不 同 数 
据 包 之 间 没 有 任何 依赖 。 

只 要 数据 包 之 间 没 有 竞争 ， 数 据 包 内 的 流水 以 及 数据 包 之 间 的 并 发 这 两 种 并 行 机 制 通常 
都 能 带 来 更 高 的 处 理 带 宽 。 拥 塞 控制 可 以 解决 数据 包 之 间 的 冲突 。 在 图 6-15 中 ,增加 了 交换 
器 之 间 的 握手 信号 ， 用 来 支持 链 路 级 流 控 。 接 收 端 交换 器 提供 了 一 个 Rdy 的 握手 信号 ， 用 
来 告知 发 送 端 交换 器 它 有 足够 的 缓冲 区 用 于 数据 接收 。 只 要 Rdy 有 效 ， 发送 端 交换 器 就 可 
以 传输 数据 包 中 的 phit。 在 虚拟 直通 式 交 换 策 略 中 ， 有 效 的 Rdy 信号 表示 接收 端的 缓冲 区 至 
少 可 以 容纳 整个 数据 包 ; 在 虫 洞 交换 策略 中 ， 则 表示 接收 缓冲 区 可 以 足够 容纳 路 由 所 在 
phit。 而 如 果 出 现 竞争 ， 某 些 交 换 器 中 的 Rdy 信和 号 会 被 无 效 ， 此 时 对 应 的 流量 可 能 需要 原 路 
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返回 到 源 节点 。 
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图 6-15” 相 邻 两 个 交换 器 的 输出 端口 和 输入 端口 之 间 带 流 控 的 4x4 交换 器 架构 


习题 ， 


6. 1 


6.3 


6.4 


在 图 6-2 所 示 的 mesh 互连网 络 中 ， 假 定 网 络 时 钟 频率 是 1CHz，phit 的 大 小 为 8bit， 路 由 地 址 占用 2 

个 phit， 数 据 包 的 有 效 负载 为 128bit， 信 封 是 16bit。 

(a) 假设 发 送 端 和 接收 端的 开销 为 零 ， 使 用 的 是 直通 式 交 换 策略 ， 从 左下 角 的 节点 发 送 一 个 数据 
包 到 右上 角 节 点 的 端 对 端 网 络 延迟 是 多 少 ? 

(b) 有 效 带 宽 是 多 少 ? 

(c) 假设 发 送 端 和 接收 端的 开销 分 别 为 64ns 和 128ns， 这 种 情况 下 的 有 效 带 宽 又 是 多 少 ? 

使 用 和 习题 6. 1 中 相同 的 网 络 参数 、 拓 扑 结 构 、 数 据 包 大 小 设 定 ， 使 用 存储 转发 交换 策略 。 

(a) 假设 发 送 端 和 接收 端的 开销 为 零 ， 计 算 从 左下 角 的 节点 发 送 一 个 数据 包 到 右上 和 角 节 点 的 端 对 
端 网 络 延 迟 ， 

(b) 使 用 存储 转发 交换 策略 时 ， 在 每 个 交换 器 中 的 缓冲 区 最 小 是 多 大 ? 

(c) 有 效 带 宽 是 多 少 ? 

在 一 个 16 x16 的 torus 互连网 络 中 , 计算 下 列 互连网 络 特性 : 

(a) 网 络 直径 。 

(b) 对 分 带宽 ,假设 每 个 链 路 的 带宽 为 100Mbits/s。 

(c) 每 个 节点 的 带宽 。 

一 个 设计 团队 正在 评估 应 该 使 用 非 流水 的 (原子 形式 ) 还 是 流水 的 (分 离 事务 形式 ) 的 总 线 来 连 

接 私有 cache 子 系统 和 二 级 共享 cache， 分 析 主 要 基于 如 下 数据 ; 

处 理 器 单 发 射 ， 时 钟 频率 为 2CHz。 

CPI (每 条 指令 消耗 的 时 钟 周期 ) 为 1， 不 考虑 访 存 引起 的 阻塞 。 

私有 cache 中 每 个 指令 的 失效 率 为 1% 。 

二 级 cache 的 访问 时 间 为 20ns。 

在 一 个 总 线 周期 内 ， 总 线 可 以 发 送 一 个 地 址 并 返回 整个 cache 块 。 

总 线 周期 时 间 为 2ns。 

处 理 器 核 数 是 4。 , 

(a) 假如 使 用 非 流 水 的 总 线 ， 总 线 的 利用 率 是 多 少 ? 
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(b) 假如 使 用 流水 的 总 线 ， 总 线 的 利用 率 是 多 少 ? 
(e) 基于 上 述 数据 ， 你 的 建议 是 什么 ? 

6. 5 假定 需要 设计 一 个 多 级 互连网 络 用 于 连接 两 类 不 同 。 ” 胡 6.2 不 同 交换 度数 下 的 交换 延迟 
的 节点 ， 每 一 类 分 别 有 64 个 节点 ， 可 用 的 交叉 开关 





交换 度数 交换 周期 时 间 (ns) 
大 小 从 2 x2 到 64 x64 不 等 ， 不 同 交换 度数 下 的 交换 和 
延迟 如 表 6-2 所 示 。 4 15 
(a) 使 得 端 对 端 飞行 时 间 达 到 最 小 的 交换 度数 是 
多 少 ? 
64 70 





(b) 根据 问题 (a) 中 确定 的 交换 度数 ， 使 用 混 洗 交 

换 互 连 模式 构建 一 个 MIN。 
(c) 标记 出 使 用 了 同一 条 链 路 或 者 使 用 了 相同 交换 资源 的 两 条 路 由 。 

6.6 设计 团队 正在 评估 如 何 使 用 nxn 的 torus 网 络 或 者 nn 维 超 立 方 网 络 来 分 别 搭建 4 节点 、16 节点 、64 

节点 和 256 个 节点 的 互连网 络 。 在 本 习题 中 ,通过 对 比 这 两 种 拓扑 结构 的 网 络 直 径 和 对 分 带宽 ， 可 
以 更 好 地 理解 应 该 如 何在 它们 之 间 进 行 折 中 。 
(a) 在 多 大 的 网 络 规模 情况 下 ， 超 立方 网 络 会 比 torus 网 络 有 更 高 的 对 分 带宽 ? 
(b) 在 问题 (a) 得 到 的 网 络 规模 下 ， 计 算 对 应 的 网 络 直 径 和 交换 度数 。 
(c) 谈 一 谈 你 对 这 两 种 拓扑 结构 优 缺 点 的 理解 。 

假定 有 一 个 四 元 三 维 立 方 互连网 络 ， 为 这 个 网 络 设计 一 个 维度 优先 路 由 算法 。 说 明 路 由 地 址 
是 如 何 生 成 的 ， 数 据 包 从 源 节点 (xi， yi, 4) 到 目的 节点 (x,， Ys， 纹 ) 是 如 何 路 由 的 。 
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一 致 性 、 同 步 与 存储 一 致 性 





7.1 概述 


本 章 主要 探讨 共享 内 存 多 处 理 器 系统 中 值 的 正确 性 各 可 靠 通信 问题 ， 这 类 系统 中 的 存储 相 
关 正 确 性 特性 包括 : cache 一 致 性 ， 存 储 一 致 性 模型 (后 续 也 简称 为 存储 模型 ) ， 以 及 同步 原 语 
的 可 靠 执行 。 由 于 CMP 也 是 共享 内 存 的 多 核 系 统 ， 所 以 本 章 的 内 容 不 仅 包括 第 5 章 讲 到 的 
SMP 系统 以 及 大 型 cc-NUMA 和 COMA 系统 的 正确 性 问题 ， 也 包括 第 8 章 中 将 会 介绍 的 CMP 
系统 。 

共享 内 存 多 线程 程序 的 正确 性 必须 独立 于 每 个 线程 的 相对 执行 速度 ， 因 为 很 多 不 可 预测 的 
事件 都 可 能 中 断 线 程 的 执行 ， 比 如 DVFS (动态 电压 和 频率 调整 )、 硬 件 和 软件 资源 冲突 、 中 
断 、 异 常 、 内 核 活 动 、 线 程 调度 、 数 据 分 配 延迟 ， 以 及 与 其 他 运行 程序 的 交互 等 。 但 是 假如 多 
线程 程序 是 服务 于 某 些 特定 的 、 时 间 高 度 可 预测 的 机 器 ， 并 且 程 序 出 于 正确 性 要 求 已 经 考虑 了 
时 间 因 素 〈 比 如 ， 在 实时 系统 中 ) ， 那 么 本 章 的 很 多 结论 都 不 再 适用 。 换 句 话 说， 本 章 针 对 的 
目标 软件 是 为 通用 或 多 用 途 机 器 编写 的 可 移植 共享 内 存 多 线程 程序 ， 也 包括 操作 系统 内 核 
程序 。 

从 硬件 的 角度 来 看 ， 存 储 模型 是 本 章 所 讨论 的 共享 内 存 系统 中 最 重要 的 部 分 。 存 储 模型 是 
ISA (指令 集 架构 ) 规范 的 一 部 分 。 简 而 言 之 ， 存 储 模型 决定 了 共享 内 存 多 处 理 器 中 访 存 指令 
(load 和 store) 交错 的 合法 性 ， 也 就 是 说 ， 它 决定 了 一 个 线程 的 访 存 操作 何 时 能 被 其 他 线程 看 
到 。 这 对 整个 系统 的 正确 性 至 关 重要 ， 也 将 直接 影响 结构 、 硬 件 和 软件 的 设计 ; 存储 模型 提供 
了 硬件 和 软件 设计 人 员 之 间 的 简单 接口 。 软 件 设计 人 员 (编译 器 开发 人 员 ， 汇 编 代 码 程序 员 和 
操作 系统 程序 员 ) 必须 按照 存储 模型 的 基本 规则 来 编写 代码 ， 以 保证 代码 在 任何 支持 该 存储 模 
型 的 机 器 上 都 能 够 正确 执行 。 同 样 ， 只 要 架构 设计 人 员 和 硬件 设计 人 员 设 计 的 硬件 符合 存储 模 
型 (不 管 实现 起 来 多 么 复杂 ) ， 就 可 以 不 用 考虑 对 应 机 器 上 运行 软件 的 复杂 性 和 多 样 性 。 

线程 间 的 同步 问题 是 从 存储 模型 中 独立 出 来 的 一 个 问题 ， 因 为 共享 内 存 所 支持 的 通信 机 制 
”比较 简单 且 有 限 ， 因 此 有 时 候 就 需要 线程 间 的 同步 。 自 从 分 时 操作 系统 出 现 之 后 ， 同 步 变 得 更 
加 必要 ， 分 时 操作 系统 通过 定期 的 进程 上 下 文 切换 以 实现 在 单 处 理 器 上 执行 多 个 并 发 进程 ， 多 
个 进程 通过 分 时 机 制 复 用 计算 机 的 所 有 资源 。 多 处 理 器 系统 中 的 线程 间 同 步 比 分 时 单 处 理 器 系 
统 中 的 线程 同步 更 加 重要 ， 因 为 前 者 需要 维护 同时 执行 的 多 个 线程 内 的 指令 顺序 ， 而 不 是 一 次 
只 有 一 个 在 执行 。 虽 然 存储 模型 和 同步 是 两 回 事 ， 但 它们 也 存在 关联 性 。 程 序 中 的 显 式 同步 规 ， 
定 了 线程 间 的 指令 的 生效 顺序 ， 因 此 ， 一 些 存储 模型 的 定义 也 利用 了 显 式 同 步 点 的 这 一 特性 。 
此 外 ， 因 为 同步 指令 也 是 访 存 指令 ， 所 以 存储 模型 也 必须 为 不 同 线程 之 间 带 load 和 store 的 交 
错 同 步 指令 明确 顺序 。 

本 章 的 目的 不 是 探讨 复杂 的 形式 化 问题 或 者 具体 的 硬件 实现 (具体 实现 在 第 5 章 中 有 介 
绍 ) ， 同 样 ， 也 不 会 详细 介绍 所 有 的 存储 模型 ， 或 揭示 有 哪些 硬件 层面 的 “技巧 ”可 以 用 来 确 
保 硬件 和 存储 模型 的 匹配 ， 这 类 “技巧 ”往往 是 高 度 依 赖 于 所 实现 的 模型 和 特定 的 体系 结构 
的 。 与 之 相反 ， 本 章 的 目标 是 让 读者 对 多 处 理 器 中 存储 访问 的 含义 和 对 实际 硬件 的 影响 有 更 直 
观 的 感受 ， 以 便 更 好 地 指导 初始 设计 以 及 后 续 的 设计 修订 。 这 种 直觉 越 正 确 ， 就 越 容易 做 出 更 
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好 的 设计 ， 后 续 所 需 的 迭代 次 数 和 验证 工作 也 就 越 少 。 

本 章 的 重点 是 架构 和 硬件 ， 高 层次 的 软件 问题 (比如 编译 器 和 编程 语言 的 影响 ) 会 根据 
需要 简单 介绍 。 我 们 将 使 用 一 些 抽象 的 硬件 组 件 模 型 ， 来 解释 一 致 性 (coherence) 、store 原子 
性 、 顺 序 一 致 性 以 及 其 他 的 存储 模型 。 我 们 将 使 用 大 量 例子 来 讲解 ， 并 在 介绍 例子 的 过 程 中 定 
义 一 些 重要 概念 。 通 过 对 这 些 重要 例子 的 学 习 ， 读 者 应 该 可 以 推广 到 其 他 的 实际 情况 中 去 。 

本 章 包含 的 内 容 如 下 : 

。 背景 。 介 绍 共享 内 存 通 信 模 型 和 共享 内 存 架 构 中 的 硬件 组 件 。 为 什么 在 现代 的 共享 内 
存 多 处 理 器 系统 中 内 存 的 正确 性 属性 很 难保 证 ? 这 部 分 内 容 将 在 7.2 节 中 介绍 。 

一 致 性 的 不 同 层次 。7. 3 节 主 要 介绍 纯 一 致 性 和 store 原子 性 之 间 的 区 别 。 

存储 模型 和 顺序 一 致 性 的 介绍 。 包 括 最 基本 的 存储 模型 ， 以 及 如 何 通过 store 同步 来 确 

保 顺 序 一 致 性 。 这 部 分 内 容 将 在 7. 4 节 介绍 。 

。 7.5 节 主 要 介绍 线程 同步 和 ISA 级 同步 原 语 。 

7.6 节 主 要 介绍 基于 硬件 效率 的 放松 存储 模型 和 依赖 于 同步 的 放松 存储 模型 ， 以 及 支 

持原 子 store 共享 内 存 并 且 装备 store buffer 的 静态 顺序 流水 线 的 简单 多 处 理 器 结构 中 的 

存储 模型 实现 。 

。 7.7 节 主要 介绍 支持 原子 store 共享 内 存 并 且 具 有 推测 执行 、 乱 序 处 理 器 核 的 多 处 理 器 
存储 模型 的 实现 ， 以 及 存储 模型 的 推测 执行 冲突 。 


名 


为 了 更 好 地 理解 本 章 的 内 容 ， 这 一 节 将 集中 介绍 所 有 的 背景 知识 ， 部 分 内 容 可 能 会 和 前 面 
的 章节 有 所 重复 ， 首 先 我 们 从 共享 内 存 的 通信 模型 开始 介绍 。 


7.2.1 共享 内 存 通信 模型 


在 共享 内 存 的 多 处 理 器 中 ， 不 同 线程 通过 对 共享 内 存 
进行 常规 load 和 store 操作 来 完成 值 的 隐 式 通信 。“ 隐 式 ” 
意味 着 不 像 消息 传递 系统 那样 会 在 代码 中 显 式 包含 信号 通 
信 指 令 ， 所 以 ， 单 纯 通 过 查看 代码 无 法 识别 通信 发 生 的 地 
方 。 图 7-1 表明 了 从 生产 者 线程 TI 到 消费 者 线程 T2 的 一 
个 通信 过 程 ，T1 在 共享 内 存 的 A 地 址 存储 了 一 个 值 ，T2 
从 地 址 A 读 取 这 个 值 。 这 和 消息 传递 系统 差别 很 大 ， 后 者 
会 在 代码 中 插入 显 式 的 发 送 和 接收 原 语 ， 以 此 将 数据 从 一 
个 线程 传输 到 另 一 个 线程 ， 这 里 的 发 送 或 者 接收 消息 都 可 
能 会 引起 线程 同步 。 

”在 图 7-1 中 的 生产 者 /消费 者 示例 中 ， 如 果 load 需要 返回 的 是 store 的 值 ， 那 么 就 必须 添加 
同步 操作 。 事 实 上 ,假如 没有 同步 操作 ， 那 么 load 操作 可 能 在 store 操作 之 前 或 者 之 后 执行 ， 
因为 每 个 线程 的 执行 速度 是 难以 预测 的 。 程 序 的 不 同 执行 可 能 导致 load 操作 返回 不 同 的 值 。 

在 绝 大 多 数 情况 下 ， 我 们 希望 多 线程 程序 的 表现 具有 确定 性 ， 并 且 在 每 次 执行 时 都 能 得 到 
相同 的 值 。 我 们 也 期 望 ， 给 定 一 个 同样 的 输入 集 ， 多 线程 程序 和 它 的 单线 程 程序 版 本 应 该 得 到 
一 样 的 结果 。 为 了 强制 store 操作 在 load 之 前 发 生 ， 线 程 TI 必须 通知 T2， 由 store 操作 产生 的 
A 的 新 值 已 经 就 绪 ， 而 T2 必须 等 待 这 个 通知 信号 才能 读 取 A 的 值 。 

反 过 来 同步 策略 的 成 功 取决 于 对 存储 模型 的 深入 理解 。 比 如 ， 程 序 员 可 能 要 通过 一 个 二 进 
制 标记 (flag) 来 同步 store 和 load 操作 ， 如 下 面 的 代码 所 示 : 






store (A) 


图 7-1 共享 内 存 通信 
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INIT: A=FLAG=0 
工业 1 
A=1 
FLAG=1 
a while (FLAG==0); 
Print A 
在 这 个 程序 中 ， 程序 员 期 望 A 的 值 打 印 出 来 总 是 1。 在 共享 内 存 系 统 中 ， 除 了 将 一 个 线程 产生 
的 值 可 靠 传播 到 另 一 个 线程 ， 还 需要 遵守 程序 员 所 期 望 的 数据 传播 方式 。 在 这 个 例子 中 ， 程序 
员 所 期 望 的 过 程 是 这 样 的 : TI 先 更 改 A， 之 后 更 改 FLAG，T2 观察 到 (或 者 是 可 以 读 取 ) 的 
这 两 次 更 改 的 顺序 也 必须 是 一 样 的 ， 一旦 T2 返回 FLAG 的 值 是 0， 那么 T2 就 不 能 执行 打印 语 
句 ， 而 一 旦 T2 返回 FLAG 值 是 1， 那 么 A 的 读数 (打印 的 值 ) 也 必须 是 1 而 不 能 返回 0。 存 储 
模型 保证 了 由 一 个 线程 产生 的 值 传 播 到 达 男 一 个 线程 的 合法 或 者 允许 顺序 。 

图 7-1 所 示 的 通信 模型 表明 内 存 地 址 新 产生 的 值 最 终 必须 传播 到 所 有 的 线程 ， 这 样 这 个 新 
值 才能 被 后 续 的 load 操作 观察 到 。 对 于 一 份 数 据 存在 多 份 副本 的 情况 ， 这 意味 着 这 个 store 的 
数据 必须 最 终 传播 到 所 有 的 备份 上 ， 以 便 被 其 他 线程 读 取 到 。 这 种 特性 通过 cache 一 致 性 协议 
来 保证 ， 当 出 现 store 时 ， 一致 性 协议 就 将 对 应 的 无 效 或 者 更 新 消息 传播 出 去 。cache 一 致 性 在 
共享 内 存 系 统 中 提供 了 一 种 假象 ， 它 使 得 从 软件 看 来 ， 每 个 内 存 位 置 都 只 有 一 份 单一 的 副本 ， 
尽管 实际 在 物理 上 可 能 存在 多 个 副本 。 

为 了 进一步 说 明 这 种 特性 ， 考 虑 图 7-2 中 的 带 有 4 个 迭代 变量 的 Jacobi 迭 代 算法 的 流程 图 。 
在 Jacobi 迭代 中 ， 每 个 迭代 变量 使 用 上 一 次 迭代 的 值 进行 更 新 。 为 了 实现 这 一 功能 ， 迭 代 变 量 
的 两 个 副本 被 保存 在 内 存 的 两 个 向 量 X 和 了 中 。 在 图 7-2 中 ,4 个 线程 每 个 更 新 4 个 迭代 变量 
中 的 一 个 。 首 先 , X; 的 新 值 根 据 工 的 线性 函数 计算 得 到 ， 然 后 4 个 线程 进行 bairrer 同步 。bar- 
rier 同步 要 求 必须 等 到 所 有 线程 都 到 达 这 个 同步 点 之 后 ， 线 程 才 能 继续 执行 。 然 后 ， 这 4 个 线 
程 根据 成 的 线性 函数 重新 计算 Y 的 新 值 。 如 此 反复 迭代 ， 直 到 根据 某 些 标准 ,, 算法 达到 收敛 。 


Ti: X1=a11Y1+a12Y2+a13Y3+a14Y4 中 T2: RL X2=ap1Y1+a22Y2+a23Y3s+ap4Y4 
T3: | Xe=asiY1+aaoYa+raas3Y3+as4Y4 T4: | 和 =a41Y1+a42Y2fa43Y3+a44Y4 






TH: =a11X1+a12X2+a13X3+a14X4 | 
T3: | 9=asiX1+as2Xo+ras3X3+tas4X4 


4=a41X1+a42X2+a43X3+a44X4 


< 


图 7-2 含有 4 个 和 迭代 的 多 线程 Jacobi 流程 图 
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在 这 个 算法 中 ， 所 有 的 ,新 值 必 须 在 每 次 迭代 的 第 一 阶段 和 第 二 阶段 之 间 传 播 给 所 有 的 线程 。 
barrier 同步 操作 确保 在 迭代 的 第 二 阶段 开始 之 前 所 有 线程 都 已 经 计算 出 了 XX, 的 新 值 ， 这 样 
barrier 保 证 在 任何 线程 读 取 XX, 时 ， 都 可 以 获得 新 值 。 

不 管 X 或 者 7 是 否 存在 多 份 副本 ，barrier 同步 都 是 必需 的 。 然 而 ,如果 存在 多 份 副 本 
(比如 在 多 cache 系统 中 ) ， 那 么 就 需要 一 种 机 制 来 保证 被 线程 了 计算 出 来 的 X, 新 值 能 传播 到 
所 有 其 他 线程 的 cache 中 。 传 播 过 程 可 能 发 生 在 迭代 的 第 一 阶段 ， 也 就 是 值 刚 刚 计算 出 来 的 时 
候 立 即 传播 ， 也 可 能 发 生 和 迭代 的 第 二 阶段 尖 也 就 是 推迟 到 要 读 取 这 个 值 的 时 候 。 这 时 可 能 需要 
使 用 barrier 来 强制 新 值 的 传播 。 假设 X; 新 值 在 迭代 的 第 二 阶段 读 取 ， 此 时 程序 已 经 无 法 检测 
到 大 是 否 存 在 多 份 副本 了 ,但 即使 有 时 候 数 据 多 个 副本 的 值 不 相同 ， 其 执行 结果 仍然 是 满足 
一 致 性 的 。 

这 个 简单 的 例子 说 明 ， 一致 性 的 保证 并 不 要 求 store 值 立即 传播 ， 也 不 要 求 对 应 内 存 位 置 
的 所 有 副本 必须 在 任何 时 候 都 一 样 。 


7. 2.2 硬件 组 件 


在 第 3、4 和 6 章 中 我 们 详细 阐述 了 处 理 器 、 存 储 系统 和 互连网 络 的 内 容 ， 在 本 节 中 ， 我 
们 会 简单 回顾 这 些 硬件 组 件 的 概念 ， 以 便 更 好 地 理解 本 章 的 内 容 。 在 现代 多 处 理 器 系统 中 ， 为 
了 提高 硬件 效率 ， 解 决 诸 如 存储 墙 这 样 的 问题 ， 硬 件 组 件 也 变 得 越 来 越 复杂 。 这 些 组 件 包 括 处 
理 器 、cache 以 及 互 连 结构 等 ， 下 面 我 们 将 给 出 这 些 组 件 的 一 些 基本 描述 。 

处 理 器 

首先 考虑 简单 的 五 级 流水 顺序 处 理 器 ， 带 推测 执行 的 乱 序 处 理 器 将 在 7.7 节 中 进行 介绍 。 
图 7-3 所 示 的 是 带 有 store 缓冲 和 写 回 cache 的 五 级 流水 线 ，store 指令 在 到 达 访 存 (ME) 流水 
级 并 通过 TLB 检测 之 后 就 不 会 发 生 异 常 ， 可 以 直接 执行 和 提交 。 当 store 指令 等 待 更 新 cache 
时 ， 会 被 插入 store 缓冲 中 ， 之后， 依据 store 缓冲 的 管理 策略 ，store 指令 会 在 cache 中 完成 执 
行 。 所 以 只 要 store 缓冲 没有 满 ， 在 ME 阶段 的 store 指令 就 是 非 阻 塞 的 〈non-blocking) 。“ 非 阻 
塞 ”意味 着 store 指令 可 以 在 二 个 周期 内 通过 ME 阶段 ， 而 不 会 阻塞 流水 线 。load 指令 是 阻塞 
的 ， 这 意味 着 在 cache 可 以 返回 读 取 值 之 前 ， 处 理 器 会 被 暂停 。store 缓冲 中 的 store 指令 会 和 
load 指令 竞争 cache 的 访问 权 ， 如 果 load 地 址 的 值 和 sotre 缓冲 中 某 个 store 操作 的 地 址 匹配 ， 


那么 可 以 直接 从 store 缓冲 中 返回 对 应 的 load 值 。 
主 存 
加 | 


store buffer (SB) 





7-3” 带 有 store 缓冲 和 写 回 cache 结构 的 五 级 顺序 流水 线 


由 于 store 缓冲 〈 几 乎 所 有 带 流水 的 机 器 都 会 配备 ) 的 存在 ，load 和 store 指令 可 能 在 cache 
中 乱 序 执行 ， 目 前 的 单 处 理 器 系统 都 广泛 采用 了 这 一 基本 优化 策略 。 然 而 在 多 处 理 器 系统 中 ， 
如 果 支 持 store 缓冲 ， 那 么 一 致 性 和 存储 模型 都 将 更 加 难以 实现 。 

cache 

现代 处 理 器 中 的 cache 通常 是 非 阻 塞 的 ， 或 者 也 称 为 无 锁 的 ， 因 此 可 以 支持 图 7-3 所 示 结 
构 中 store 操作 那样 的 非 阻塞 内 存 访问 。 无 锁 cache 利用 了 cache 具有 两 个 接口 的 特征 : 一 个 连 
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接 处 理 器 ， 另 一 个 连接 下 一 级 cache 或 者 内 存 ， 如 图 7-4 所 示 。 当 发 生 cache 失效 时 ， 在 处 理 器 
端的 控制 器 不 会 阻塞 处 理 器 ， 相 反 这 个 失效 请 求 会 提交 给 在 内 存 端的 控制 器 ， 同 时 在 处 理 器 端 
可 以 继续 发 出 更 多 的 访问 操作 。 待 处 理 的 失效 都 存储 在 特殊 寄存 器 中 ， 当 失效 的 数据 块 返回 
时 ， 处 理 器 所 需 的 值 就 会 进行 快速 前 递 。 


Cem: cache 到 内 存 的 接口 
Cpc: 处 理 器 到 cache 的 接口 





7-4 无 锁 cache ， 


因此 ， 在 无 锁 cache 结构 中 ， 多 个 cache 失效 操作 可 以 和 cache 命中 操作 并 发 处 理 ， 失 效 的 
开销 可 以 通过 其 他 CPU 操作 以 及 其 他 失效 操作 重 释 隐藏 。 在 图 7-3 中 的 无 锁 cache 结构 下 ， 多 
个 store 失效 以 及 最 多 一 个 load 失效 /命中 请 求 可 以 同时 处 理 ， 因 为 load 操作 在 处 理 器 中 是 阻塞 
的 ， 而 store 是 非 阻塞 的 。 

为 了 降低 平均 的 cache 失效 开销 ，CPU 节点 的 cache 空间 通常 被 组 织 成 多 个 层次 ， 如 图 7-5 
所 示 。 通 常情 况 下 ， 不 同 层 次 之 间 的 数据 采用 包含 的 关系 ， 这 样 那些 不 影响 更 高 层次 cache 的 
输入 消息 就 可 以 过 滤 掉 。 入 站 的 请 求 和 应 答 会 经 过 多 级 缓冲 向 上 渗透 到 Ll cache,, 设置 多 级 组 
冲 的 目的 是 为 了 均衡 不 同 cache 层次 之 间 的 处 理 流量 。 在 这 种 机 制 下 ， 入 站 消息 到 达 网 络 或 总 
线 接口 后 ， 可 能 需要 经 过 很 多 个 时 钟 周 期 才能 最 终 达 到 Ll cache， 然 后 处 理 器 才能 够 从 Ll 中 
读 到 该 消息 对 应 的 数据 和 指令 。 在 这 段 时 间 内 ， 处 理 器 完全 不 知道 这 个 人 站 消息 的 存在 ， 它 会 
继续 处 理 其 他 操作 并 通过 多 级 缓冲 往外 发 送出 站 消息 。 这 些 延迟 的 存在 导致 了 处 理 器 的 多 个 访 
存 事务 之 间 存 在 大 量 的 时 间 重 又 ， 此 外 ,每 个 处 理 器 节点 上 的 延迟 也 是 不 同 的 ， 因 为 每 个 处 理 
器 核 以 及 cache 上 的 执行 时 间 和 访 存 事件 都 可 能 各 不 相同 。 






入 站 请 求 和 应 答 


(i ) 人 <[[[ 4- bd <4{[I[ 4- 
Li$ L2$ 
-JJ > II> 


出 站 请 求 和 应 答 





网 络 / 总 线 接口 


图 7-5 三 级 cache 结构 和 入 站 /出 站 缓冲 区 


从 Ll 出 站 的 请 求 和 应 答 也 会 进行 缓冲 ， 因 此 Ll 的 消息 到 达 总 线 接口 ， 再 发 送 到 总 线 或 者 
互连网 络 ， 最 终 对 其 他 处 理 器 节点 可 见 ， 这 个 过 程 可 能 需要 花费 好 多 个 时 钟 周 期 的 时 间 。 

系统 互 连 

系统 互 连 是 处 理 器 和 内 存 之 间 消 息 交换 的 传输 媒介 ,最 简单 的 系统 互 连 结构 是 总 线 。 

总 线 是 一 种 被 动 形式 的 连 线 ， 它 可 以 高 效 地 维护 cache 一 致 性 ， 因 为 总 线 可 以 在 节点 之 间 
进行 高 效 的 广播 (broadcast) 和 总 呼 〈broadcall) 。 广 播 是 指数 据 从 一 个 处 理 器 节点 传输 到 其 他 
所 有 处 理 器 节点 ; 总 呼 是 指 广播 一 个 命令 到 所 有 节点 ， 然 后 所 有 节点 都 进行 应 答 。 此 外 ， 总 线 
可 以 对 无 法 在 cache 中 完成 的 访 存 操作 进行 串 行 排序 。 我 们 在 后 面 将 会 看 到 ， 这 种 特性 有 助 于 
一 致 性 和 存储 模型 的 实现 。 然 而 ， 总 线 的 带宽 有 限 ， 并 且 非 常 容易 达到 饱和 ， 因 为 所 有 的 总 线 
事务 流量 (即使 是 不 相关 的 流量 ) 都 需要 占用 同一 电线 进行 传输 。 此 外 ， 总 线 的 传输 速度 也 
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受 限于 总 线 的 长 度 和 连接 到 它 上 面 的 所 有 电容 负载 。 
系统 总 线 通 常 由 多 根 总 线 组 成 ， 如 
图 7-6a 所 示 的 仲裁 、 地 址 、 数 据 、 控 制 总 线 
等 。 总 线 必须 首先 通过 集中 式 的 或 者 分 布 式 的 
仲裁 机 制 进行 仲裁 。 一 旦 获得 总 线 控制 权 ， 就 
可 以 发 出 地 址 信号 (如 果 是 store 操作 则 还 有 
数据 信号 ) 和 控制 信号 ， 然 后 就 可 以 接收 到 数 
据 信号 (load 的 情况 ) 或 者 确认 信和 号 (store 
的 情况 ) 。 这 些 步骤 可 以 流水 化 以 实现 更 大 的 
吞吐 量 。 为 了 进一步 提高 带宽 ， 总 线 可 以 采用 
数据 包 交 换 ( packet- switched, 或 者 叫 分 片 事 
务 (split-transaction) ) 机 制 。 在 电路 交换 机 制 
下 , 在 整个 事务 的 处 理 过 程 中 总 线 都 是 独占 
的 。 而 在 包 交换 (分 片 事务 ) 机 制 下 ,一 旦 请 
求 (地 址 + 控制 ) 信号 被 发 送 ， 总 线 就 可 以 释 
放 ， 当 应 答 信号 (数据 或 者 确认 ) 就 绪 之 后 ， 
应 答 端 重新 仲裁 总 线 请 求 ， 获 取 总 线 后 应 答 以 
一 个 新 的 数据 包 的 形式 发 送 。 在 请 求 和 应 答 数 





据 包 之 间 ， 总 线 是 释放 的 ， 所 以 多 个 总 线 事务 c) 二 维 mesh 
可 能 同时 在 处 理 ， 这 些 并 发 的 总 线 事务 一 般 访 图 7-6 系统 互 连 示例 
问 不 同 的 地 址 。 


在 环 或 者 mesh ( 见 图 7-6b 和 e) 这 样 的 点 对 点 互 连 结构 中 ， 多 个 访 存 事务 可 以 同时 处 理 ， 
只 要 它们 在 同一 时 钟 周期 不 会 使 用 相同 的 网 络 链 路 即 可 。 在 这 种 网 络 中 ， 每 个 处 理 器 位 于 互 连 
结构 的 一 个 节点 上 ， 节 点 之 间 通 过 一 定 的 路 由 策略 沿 着 对 应 链 路 将 消息 传输 到 目的 地 。 点 对 点 
消息 可 以 使 用 的 带宽 比 总 线 要 大 得 多 ， 因 为 点 对 点 消息 可 以 使 用 不 同 的 无 冲突 路 由 节点 。 然 而 
广播 或 者 总 呼 的 带宽 是 固定 的 ， 因 为 所 有 的 节点 都 必须 通知 到 。 分 布 式 互 连 的 另 一 个 优点 是 点 
对 点 链 路 的 时 钟 频率 可 以 比 总 线 更 快 。 

在 分 布 式 网 络 中 ， 两 个 节点 之 间 可 能 存在 多 个 路 由 器 ， 自 适应 网 络 可 以 根据 网 络 中 的 拥塞 
情况 动态 改变 消息 的 路 由 策略 。 因 此 两 个 节点 间 的 延迟 并 不 总 是 可 预测 的 。 这 种 网 络 无 法 为 所 
有 请 求 和 应 答 消 息 提供 一 个 全 系统 范围 内 的 顺序 性 ， 因 此 ， 相 比 于 总 线 结构 ， 这 类 网 络 结构 上 
的 存储 模型 更 难 实现 。 有 时 候 ， 这 类 网 络 甚至 都 不 会 维护 相同 节点 对 之 间 数 据 包 的 发 送 和 接收 
顺序 ， 当 消息 从 一 个 节点 ( 源 】 发 送 到 另 一 个 节点 (目的) 时， 目的 节点 的 接收 顺序 可 能 与 
源 节点 的 发 送 顺 序 不 一 致 ， 很 显然 ， 这 种 网 络 上 的 一 致 性 和 存储 模型 都 比较 难 实 现 。 

存储 模型 需求 

复杂 微 处 理 器 结构 、cache 层次 结构 、 片 上 /系统 互 连 等 诸多 因素 的 差异 ， 使 得 多 核 /多 处 
理 器 发 出 的 访 存 请 求 的 延迟 和 顺序 难以 确定 ， 而 这 种 复杂 性 又 不 能 直接 暴露 给 程序 员 ， 主 要 有 
两 个 原因 : (1) 如 果 暴 露 给 程序 员 去 保证 ， 那 程序 的 正确 开发 、 编 译 、 移 植 将 会 变 得 极其 复 
杂 ; (2) 无 法 实现 软件 的 向 后 兼容 ， 这 导致 我 们 不 得 不 回 到 为 每 台新 机 器 重新 开发 软件 的 原 
始 时 代 。 

因此 ， 既 然 我 们 无 法 把 每 一 个 体系 结构 组 件 的 特征 都 暴露 给 程序 员 ， 那 么 体系 结构 设计 人 
员 就 必须 为 程序 员 提 供 一 个 合适 的 模型 ， 即 体系 结构 和 软件 设计 人 员 需 要 在 硬件 效率 和 可 编程 
性 之 间 找 到 一 个 折 中 ， 这 个 折 中 的 结果 就 是 存储 模型 。 存 储 模 型 提供 了 一 系列 简单 的 规则 ， 规 
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定 了 多 处 理 器 中 的 访 存 操作 行为 。 作 为 ISA 规范 的 一 部 分 ， 存储 模 型 使 程序 员 从 硬件 复杂 度 中 
解放 出 来 ， 并 保证 了 并 行 软件 的 向 后 兼容 。 


7.3 一 致 性 和 store 原子 性 


现在 的 单 处 理 器 系统 往往 采用 激进 的 乱 序 执行 访 存 操作 ， 存 储 系统 结构 复杂 、 层 次 众多 ， 
支持 无 锁 cache 和 各 种 写 回 策略 ， 在 这 样 的 复杂 结构 下 ， 存 储 一 致 性 是 一 个 非常 麻烦 的 问题 。 
好 在 单线 程 上 下 文中 已 经 强加 了 一 个 严格 定义 的 线程 序 ， 这 才 使 得 上 述 问题 变 得 相对 简单 一 
些 。 不 管 处 理 器 以 什么 方式 发 送 访 存 请 求 ， 也 不 管内 存 系统 以 什么 方式 进行 应 答 ， 在 单线 程 上 
下 文中 ， 汪 致 性 必须 满足 程序 员 所 期 望 的 结果 : 指令 看 起 来 像 是 严格 按照 线程 序 每 次 执行 一 条 
指令 。 所 以 在 单 处 理 器 《单线 程 ) 系统 中 经 典 的 一 致 性 定义 是 “load 必须 以 线程 序 返 回 最 近 
一 次 相同 地 址 的 store 值 ”"。 线 程序 可 以 被 定义 为 取 指 或 译 码 的 顺序 ， 或 者 一 次 只 执行 一 条 指令 
时 的 执行 顺序 。 这 一 定义 意味 着 两 个 硬件 组 件 一 一 处 理 器 和 内 存 系统 需要 进行 协作 。 
。 处理 器 可 能 乱 序 发 射 访 存 指令 ， 不 过 它 会 通过 访 存 相关 硬件 〈 比 如 load/store 队列 ) 来 
确保 所 有 的 访 存 依赖 都 能 满足 ， 并 且 访 存 操作 看 起 来 就 好 像 按照 线程 序 执行 一 样 。 
。 存储 系统 可 能 包含 多 级 cache、 内 存 和 硬盘 ， 每 一 级 都 可 能 有 不 同 的 写 回 策略 ， 并 且 可 
能 同时 在 处 理 多 个 请 求 ， 但 是 每 个 load 操作 最 后 必须 以 线程 序 返回 最 新 的 一 个 
store 值 。 
在 多 处 理 器 中 的 一 致 性 问题 会 更 加 复杂 ， 因 为 没有 类 似 “多 线程 序 ” 这 种 概念 。 要 想 让 
上 文 对 一 致 性 的 经 典 定义 (包含 “最 近 的 store” 的 概念 ) 继续 适用 ， 不 同 线程 之 间 对 同一 地 
址 的 所 有 访 存 操作 之 间 就 必须 存在 一 个 全 局 的 时 间 序 。 
在 这 一 章 中 , 我 们 假设 单线 程 的 一 致 性 或 者 线程 内 部 的 访 存 依赖 关系 都 是 满足 的 ， 而 在 其 
他 情况 下 ， 比 如 不 同 线程 之 间 的 访 存 操作 顺序 ， 则 人 允许 放松 一 下 。 单 线程 必须 确保 正确 执行 ， 
因此 上 面 的 这 种 约定 是 必要 的 ,在 下 文 将 不 再 重复 说 明 。 


7.3.1 多 处 理 器 一 致 性 的 实现 困难 


在 传统 的 单 处 理 器 系统 中 ， 当 0 操作 绕 过 在 系统 总 线 上 的 cache， 而 直接 流 人 /流出 内 存 
时 ,也 会 存在 0 一 致 性 问题 。 但 是 这 种 问题 可 以 通过 软件 的 方法 来 解决 ， 因 为 VO 事件 不 会 
频繁 发 生 ， 并 且 LO 造成 的 中 断 和 陷阱 是 软件 可 感知 到 的 。 传 统 的 解决 办 法 包括 : 设 定 不 可 组 
存 的 地 址 空间 ， 设 置 不 可 缓存 的 内 存 操作 ， 以 及 进行 cache 刷新 等 。 

在 多 处 理 器 中 ,一 致 性 问题 无 处 不 在 ,出 于 性 能 的 考虑 ， 共 享 内 存 系 统 中 的 通信 一 般 都 是 
隐 式 完成 的 ， 潜 在 的 问题 也 极 少 会 显 式 通知 软件 。 在 多 处 理 器 系统 中 的 一 致 性 问题 是 由 于 对 同 
一 个 内 存 地 址 的 多 份 副 本 造成 的 ， 这 里 的 多 份 副 本 不 仅仅 是 在 cache 中 ， 也 包括 处 理 器 核 中 和 
访 存 相关 的 一 些 非常 隐蔽 的 底层 硬件 缓冲 区 ， 比 如 图 7-3 中 的 store 缓冲 区 。 

图 7-7 展示 了 在 没有 任何 硬件 一 致 性 支持 下 的 cache 一 致 性 问题 ， 图 中 3 个 处 理 器 访问 同 
一 个 内 存 地 址 X， 每 次 访问 称 为 一 个 内 存 事 件 。 首先， 假设 图 中 描绘 的 这 5 个 内 存 事件 都 立 
刻 ; 原子 地 、 零 时 间 内 执行 ， 或 者 假设 这 5 个 访 存 操 作 完 全 没有 时 间 上 的 重 倒 。 为 了 更 好 地 解 
释 其 中 的 含义 ， 定 义 访 存 指令 的 生命 周期 ， 这 个 周期 从 指令 取 指 时 间 开始 ， 到 该 访 存 指令 在 整 
个 系统 中 的 所 有 活动 都 已 经 完成 为 止 。 很 明显 ， 在 指令 的 生命 周期 之 外 ， 访 存 操作 不 会 影响 到 
其 他 执行 的 输出 结果 。 假 如 两 个 访 存 指令 的 生命 周期 不 相交 ， 那 么 它们 在 时 间 上 就 不 会 重合 ， 
但 即使 是 这 种 简单 的 情况 ， 一 致 性 问题 也 不 是 那么 容易 理解 。 

假设 所 有 的 访 存 事件 在 时 间 上 是 不 重 倒 的， 让 我 们 跟踪 这 些 事件 的 进展 。 最 初 ，X 的 单一 
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event_3 
store 1 in X 


图 7-7 不 带 cache 一 致 性 协议 的 cache 一 致 性 问题 


副本 存在 内 存 中 ， 因 此 这 个 执行 默认 是 一 致 的 。 在 事件 1 和 事件 2 的 load 操作 之 后 ，X 同时 存 
在 PI 和 了 3 的 cache 中， 因此 形成 了 3 份 副 本 ，2 个 在 cache 中 , 1 个 在 内 存 中 。 因 为 这 3 个 副 
本 的 值 相 同 ( 都 是 0) ， 所 以 执行 仍然 是 一 致 的 。 然 后 P3 在 X 中 store 了 1 个 1 (事件 3) 。 从 此 
时 开始 ， 系 统 中 有 3 个 副本 和 2 个 值 。 假 如 cache 是 写 穿 透 策 略 ， 那 么 内 存 也 随 之 被 更 新 ， 然 
后 P2 的 事件 4 读 到 X=1， 这 也 是 对 的 。 然 而 ， 不管 cache 是 写 穿 透 还 是 写 回 策略 ，P1 都 将 在 
事件 5 中 读 取 到 X =0。 

讨论 一 致 性 问题 的 时 候 ， 如 果 满 足以 下 条 件 ， 则 认为 一 致 性 是 自动 维护 的 : (1) 在 当前 
系统 中 只 存在 一 份 副本 ; (2) 存在 多 份 副本 , 但 是 多 份 副本 有 相同 的 值 。 很 明显 ， 如 果 一 个 
值 的 所 有 副本 在 任何 时 候 都 是 相同 的 ， 那 么 就 没有 必要 考虑 一 致 性 的 问题 了 。 在 图 7-7 中 , 在 
事件 3 之 后 , 一 共存 在 3 个 副本 ， 在 系统 范围 内 有 两 个 不 同 的 值 ， 然 而 这 并 不 意味 着 执行 过 程 
是 不 一 致 的 。 除 非 副 本 中 的 不 同 值 会 对 软件 产生 影响 ， 否 则 这 种 不 同 就 无 关 紧 要 。 为 了 观察 到 
违背 一 致 性 的 情况 ， 线 程 必须 执行 后 面 的 load 操作 ， 这 样 才 能 观察 到 不 同 的 值 。 因 此 ， 即 使 在 
事件 3 之 后 ， 整 个 执行 过 程 仍 然 是 一 致 的 。 

另 一 个 有 趣 的 问题 是 ， 如 果 在 事件 4 或 者 事件 5 的 执行 过 程 中 ，P1 或 者 P2 返回 0 的 话 ， 
是 否 还 满足 一 致 性 ? 假如 Pl 和 P2 的 load 操作 和 P3 的 store 操作 在 时 间 上 没有 重 释 或 者 是 零 延 
迟 的 原子 执行 ， 那 么 访 存 事件 就 完全 可 以 按照 时 间 进 行 排序 ,一致 性 经 典 定 义 中 “最 近 的 副 
本 ”的 概念 显示 事件 4 和 5 必须 返回 数值 1。 所 以 假如 访 存 事件 在 时 间 上 没有 重 炙 或 者 原子 执 
行 ， 那么 任何 一 致 性 协议 都 必须 保证 在 事件 4 和 5 中 返回 值 1。 

我 们 知道 ， 在 编写 并 行 软件 时 通常 认为 软件 行为 是 独立 于 具体 的 实际 时 间 的 ， 如 果 软 件 检 
测 不 到 上 面 所 讲 的 这 种 明显 的 不 一 致 现象 ， 那么 这 种 不 一 致 就 无 关 紧 要 。 在 当前 环境 中 ,PI1 
或 者 P2 在 满足 一 致 性 的 情况 下 也 不 下定 要 返回 值 1， 除 非 它 们 的 访 存 操 作 在 时 间 上 没有 重 又 
或 者 是 原子 执行 的 。 图 7-1 说 明了 其 中 的 原因 : P3 的 执行 可 能 会 更 慢 , 或 者 Pl 和 P2 的 执行 可 
能 更 快 (或 者 同时 出 现 ) ， 在 这 种 情况 下 ，P3 的 store 可 能 在 真实 时 间 里 发 生 在 Pl 和 .P2 的 两 
个 load 操作 之 后 。 

如 果 程 序 员 期 望 得 到 确定 的 结果 ， 那么 P3 的 store 操作 和 P2、P1 的 load 操作 应 该 用 一 个 
同步 事件 ( 比如 barrier 同步 ) 分 隔 开 ,， 因 为 正如 图 7-1 所 示 ， 共享 内 存 系统 在 硬件 上 不 会 对 不 
同 线程 对 相同 地 址 的 load 和 store 操作 进行 定 序 。 在 这 种 情况 下 ， 同 步 操作 强制 了 store 和 两 个 
load 操作 的 先后 顺序 ， 因 此 Pl 和 P 的 两 个 load 操作 一 定 会 返回 1。 

在 真实 机 器 中 ， 访 存 事件 并 不 是 瞬时 完成 的 ， 通 常情 况 下 不 同 访 存 的 执行 过 程 会 在 时 间 上 
有 重合， 在 整个 生命 周期 内 ,每 个 访 存 指令 在 硬件 上 都 要 经 过 一 串 很 长 的 处 理 过 程 ， 这 可 能 会 
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花费 大 量 的 时 钟 周期 。 在 图 7-7 的 示例 中 ,事件 3、 事 件 4 以 及 事件 5 可 能 在 同一 个 时 钟 周期 
触发 (触发 时 间 是 cache 访问 的 时 钟 周 期 )， 然 后 按照 各 自 的 步伐 执行 推进 ， 在 处 理 过 程 中 ， 
这 些 事件 有 时 可 能 会 因为 冲突 而 被 串 行 化 〈 比 如 访问 同一 个 共享 总 线 的 时 候 ) ， 在 其 他 时 候 ， 
不 同事 件 又 可 能 在 不 同 的 硬件 上 (比如 从 cache 到 总 线 之 间 的 通路 ) 并 行 处 理 。 这 种 潜在 的 时 
间 重 又 使 得 一 致 性 问题 的 处 理 更 加 富有 挑战 性 。 

图 7-8 显示 了 两 个 线程 对 相同 地 址 内 存 访 问 的 3 种 不 同调 度 方式 ， 每 次 访问 (load 或 者 
store) 的 生命 周期 用 时 间 间 隔 表 示 。 在 图 7-8a 和 图 7-8b 的 情况 中 ， 所 有 的 load 操作 和 store 操 
作 之 间 是 时 间 有 序 的 ， 因 此 任何 满足 一 致 性 的 存储 系统 在 执行 load 时 都 必须 返回 前 一 个 store 
的 值 。 然 而 ， 在 图 7-8c 的 情况 中 ， 在 满足 一 致 性 的 存储 系统 中 load 所 返回 的 值 也 是 不 确定 的 ， 
因为 load 和 store 的 生命 周期 重 倒 了 。 


EE EA) 


时 间 ( 周期 ) 

store load load 
线程 1 1 一 一 一 ; 
线程 2 load store store 

a) 无 重奏 访 存 

store load load 

线程 1 上 上 === 
load store store 
线程 2 
b ) store 不 和 load 或 者 其 他 store 重 蚕 ， 但 是 load 之 间 存 在 重 丢 

store load load 
线程 1 
线程 2 load store store 


c ) load 和 store 都 存在 重 又 
图 7-8 两 线程 对 相同 地 址 访 存 操作 的 时 间 重 全 


当 load 和 store 有 时 间 重 全 时 (如 图 7-8c 所 示 )， 图 7-7 中 的 关键 是 理解 硬件 上 是 如 何 处 理 
的 。 不 过 ,我 们 先 不 考虑 这 个 关键 问题 ， 下 面 先 介绍 一 些 简单 的 协议 和 系统 ， 这 些 内 容 我 们 在 
本 章 中 会 多 次 用 到 。 


7. 3.2 cache 协议 


如 果 假 定 访 存 操作 瞬时 完成 (原子 性 ) ,或 者 不 同 访 存 操作 在 时 间 上 完全 没有 重合 ， 那 
么 协议 可 以 表示 为 简单 的 状态 图 表 。 这 种 表示 cache 稳定 状态 之 间 转 换 规则 的 定义 叫 作 协议 
的 行为 规范 。 有 了 时候， 协议 可 能 有 临时 状态 ,这 种 瞬时 状态 出 现在 从 一 个 稳定 状态 到 男 一 
个 稳定 状态 过 渡 的 时 候 。 不 过 瞬时 状态 一 般 只 是 概念 上 存在 ,往往 用 来 在 模块 内 部 记录 全 
局 状态 的 转变 过 程 ， 因 此 ， 在 本 章 中 我 们 忽略 这 种 瞬时 状态 ， 这 不 会 对 接 下 来 的 讨论 产生 
影响 。 

在 第 5 章 中 ,我 们 已 经 深入 讨论 了 cache 协议 以 及 各 种 系统 所 需要 的 硬件 结构 ， 在 本 章 ， 
我 们 主要 讨论 总 线 和 简单 cc-NUMA 多 处 理 器 上 的 侦 听 协议 ， 如 图 7-9 所 示 。 我 们 只 讨论 两 种 
简单 的 cache 协议 一 一 MSI- 无 效 和 MSI- 更 新 ， 更 加 复杂 的 协议 难以 描述 ， 而 且 不 易 理 解 ， 在 这 
里 暂 不 介绍 。 

侦 昕 协议 

简单 的 多 cache 系统 可 以 基于 总 线 互 连 结构 所 提供 的 广播 机 制 来 实现 ， 如 图 7-9a 所 示 。 总 
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线 接口 (BI)“ 侦 听 ” 在 总 线 上 的 控制 和 地 址 广播 消息 ， 如 果 当 前 的 总 线 事务 会 影响 到 本 地 
cache 的 内 容 或 者 需要 进行 响应 ， 那 么 本 地 总 线 接口 会 把 这 个 消息 转发 给 本 地 cache， 否 则 就 直 





b ) cc-NUMA 多 处 理 器 
图 7-9 基于 cache 的 多 处 理 器 配置 


在 行为 级 别 ， 基 于 侦 听 的 一 致 性 协议 可 以 大 致 分 为 “ 写 -~ 无效 ”和 “ 写 -更 新 ”这 两 种 
协议 。 通 常 来 说 ， 协 议 根据 其 稳定 状态 的 起 始 字母 来 命名 。 在 这 一 章 中 ,我 们 为 写 回 cache 提 
供 两 种 协议 ， 这 两 种 协议 都 是 基于 三 个 本 地 cache 状态 : 修改 状态 ( modified，M)， 共 享 状 态 
(shared，S) 和 无 效 状 态 (invalid，I) 。 无 效 意 味 着 对 应 的 数据 块 在 cache 中 ， 但 是 已 经 无 效 
了 ， 所 以 它 的 内 容 是 旧 的 或 者 没有 被 缓存 (Not In Cache，NIC ) ， 我 们 将 这 两 个 协议 分 别称 为 
“MSI- 无 效 ” 和 “MSI- 更 新 ”。 

在 修改 (M) 状态 时 ， 本 地 的 数据 副本 是 整个 系统 中 唯一 有 效 的 ， 而 内 存 中 的 数据 是 旧 
的 ， 本 地 处 理 器 可 以 从 cache 行 中 随意 读 写 该 数据 。MSI- 无 效 和 MSI- 更 新 之 间 的 关键 不 同 在 于 
共享 状态 (S)。 在 共享 状态 下 ， 系 统 中 可 能 存在 多 个 副本 ， 必 须 维护 一 致 性 ， 此 时 两 种 协议 
下 的 内 存 数 据 都 是 最 新 的 。 在 MSI- 无 效 协议 中 ，cache 中 有 共享 副本 的 处 理 器 不 能 更 改 这 个 副 
本 ， 而 只 能 读 。 要 想 更 改 这 个 数据 ，cache 必须 先 获得 修改 (M) 状态 的 副本 。 为 此 cache 必须 
无 效 掉 所 有 的 远程 副本 。 与 之 相反 ,在 MSI- 更 新 协议 中 ， 处 理 右 可 以 任意 地 读 取 或 者 更 改 它 
的 共享 副本 ， 不 过 ， 每 次 store 操作 引起 的 更 新 必须 广播 到 所 有 的 远程 副本 中 ， 以 保持 数据 的 
一 致 性 。 每 次 发 送 更 新 请 求 时 ， 总 线 上 的 共享 线路 会 反馈 是 否 存在 远程 副本 (使 用 broadeall 实 
现 ) ， 当 没有 cache 响应 时 ， 本 地 cache 切换 到 修改 状态 (M) 。 需 要 特别 强调 的 是 ,在 更 新 协 
议 中 没有 “无 效 ” 请 求 这 种 类 型 。 在 共享 状态 下 cache 可 以 通过 共享 线路 检测 自己 是 否 具 有 了 唯 
一 副本 。 在 MSI- 更 新 协议 中 的 共享 状态 有 时 候 也 叫 作 写 穿 透 状态 。 

图 7-10 的 状态 图 描述 了 对 应 的 协议 机 ， 即 每 个 内 存 块 对 应 cache 的 有 限 状 态 机 行为 。 系 统 
中 的 所 有 内 存 块 和 cache 都 会 对 应 到 一 个 这 样 的 状态 图 。 这 个 协议 机 本 质 上 是 个 Moore 有 限 状 
态 机 ， 输 入 来 自 于 处 理 器 和 侦 听 总 线 。 来 自 处 理 器 的 输入 是 PrRd( 处 理 器 读 ) 和 PrWr( 处 理 器 
写 ) 。 在 MSI- 无 效 协 议 中 , 来 自 总 线 的 输入 是 BusRd( 读 操作 miss) 和 BusRdX( 写 操作 miss ) ; 
在 MSI- 更 新 协议 中 , 来 自 总 线 的 请 求 是 BusRd( 读 或 写 miss) 或 者 BusUpdate( 数据 写 穿 透 ) 。 针 
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对 上 述 输入 ，MSI- 无 效 协 议 的 本 地 协议 机 使 用 刷新 操作 (传递 副本 值 并 更 新 内 存 )、BusRd 或 
者 BusRdX 进行 响应 。 在 MSI- 更 新 协议 中 ， 响 应 方式 则 是 刷新 、BusRd 或 者 BusUpdate。 


BusRdX/Flush 


ER BusRd/— 
rWr/— 
BusRd/Flush PrRd/BusRd a 
prRd/- BusRdX/ 
站 ) PrRd/- 
本 BudRd/— 


BusRdX/— 
PrWr/BusRdX 











a ) MSI- 无 效 协 议 的 协议 机 


PrWr(S)/BusUpdate 
BusUpdate/— 









Pp 
BusRd/— BusUpdate/— 
prRd/- BusRd/Flush BusRd 三 
PrWr— 


PR 全 ER 
PrWr(S)/BusRd 












PrWr(S)/BusUpdate 二 
PrRd(S)/BusRd 
PrWr(S)/BusRd 


b ) MSI- 更 新 协议 的 协议 机 
图 7-10 


当 内 存 块 在 cache 中 处 于 S 状态 的 时 候 ， 在 MSI- 无 效 协议 中 ，PrWr 发 送 一 个 BusRdX， 而 
在 MSI- 更 新 协议 中 ，PrWr 发 送 带 有 地 址 和 数据 的 更 新 请 求 。 注 意 在 MSI- 更 新 协议 机 的 状态 图 
中 使 用 的 信号 S 是 一 个 二 进 制 标 志 位 (flag) ， 用 于 标识 总 线 共享 线路 上 的 应 答 ， 并 且 是 协议 机 
的 一 个 输入 ， 但 它 是 协议 机 的 后 期 输入 ， 出 现在 总 线 请 求 之 后 ， 并 且 决 定 下 一 个 状态 。 

图 中 这 两 个 协议 被 简化 到 了 最 低 程度 。 比 如 ， 在 MSI- 无 效 协 议 中 ， 其实 我 们 也 可 以 在 
PRWr 上 发 送 一 个 新 的 BusUpgrade 请 求 到 共享 副本 ， 而 不 是 发 送 BusRdX 请 求 ， 后 者 需要 重新 
装载 数据 块 ， 而 这 个 BusUpgrade 请 求 只 是 简单 地 把 远程 cache 副本 无 效 掉 。 

同样 ， 在 MSI- 更 新 协议 中 ， 当 处 理 器 执行 了 一 个 store 操作 时 ， 从 I 到 S 的 转换 会 在 BusRd 
请 求 上 发 送 一 个 更 新 操作 。 但 如 果 考 虑 这 点 ， 那 么 这 里 的 总 线 协 议 又 将 变 得 非常 复杂 ， 以 致 难 
以 讨论 下 去 。 因 此 ， 如 图 7-10 所 示 ， 不 管 是 MSI- 无 效 协议 机 还 是 MSI- 更 新 协议 机 ,我们 都 假 
设 当 访 存 操作 在 cache 中 无 法 完成 时 , 都 会 由 处 理 器 进行 重 试 。 比 如 ， 当 处 理 器 执行 store 操 
作 ， 并且 总 线 中 的 共享 线路 为 高 电 平 时 ，MSI- 更 新 协议 分 两 步 完 成 从 1 到 S 的 转换 : 首先， 状 
态 工 的 cache 发 送 一 个 BusRd 信号 ， 它 会 读 取 一 个 共享 备份 到 cache 中 ; 然后 ， 人 处 理 器 重 试 这 个 
store 操作 ， 此 时 ， 数 据 副 本 是 S 状态 的 ， 所 以 会 发 出 一 个 BusUpdate 信号 ， 然 后 处 理 器 成 功 提 
交 这 个 store 指令 。 

目录 协议 (cc-NUMA 系统 ) 

上 面 介绍 的 MSI- 无 效 协议 和 MSI- 更 新 协议 都 是 在 基于 侦 听 总 线 的 多 处 理 器 环境 下 设计 的 ， 
它们 同样 可 以 扩展 到 图 7-9b 所 示 的 cc-NUMA 系统 中 。 这 类 系统 通过 基于 目录 的 点 对 点 消息 来 
保证 一 致 性 ,在 目录 中 记录 了 所 有 内 存 块 的 全 局 状态 。 每 个 内 存 块 可 以 通过 其 地 址 找到 对 应 的 
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主 节点 ， 每 个 内 存 块 在 其 主 节点 上 都 有 一 个 对 应 的 目录 项 ,该 目录 项 中 包含 了 指向 所 有 数据 副 

本 的 指针 以 及 表示 该 数据 块 全 局 状态 的 状态 位 。 此 外 ， 在 主 节点 上 , :每 个 目录 项 都 有 一 个 忙 

(busy) 位 ， 它 指示 当前 数据 块 是 否 有 事务 正在 处 理 中 。 如 果 存 在 未 完成 的 事务 处 理 ， 那 么 控 

制 器 将 不 会 对 任何 其 他 针对 该 数据 块 的 请 求 进行 应 答 ， 因 此 其 他 请 求 将 被 拒绝 ， 之 后 再 重 试 。 
通常 情况 下 ， 参 与 一 致 性 事务 的 节点 包括 : 

。 主 节点 〈H) : 内 存 块 及 其 目录 项 所 在 的 节点 。 

。 请 求 节点 (R) : 产生 请 求 的 节点 3 

。 脏 节点 〈D) : 包含 最 新 (修改 过 的 ) 数据 副本 的 节点 。 

。 共享 节点 (S) : 包含 数据 共享 副本 的 节点 。 

下 面 举 一 个 协议 事务 处 理 的 例子 ， 在 MSI- 无 效 协 议 中 发 生 了 一 个 store 失效 ， 此 时 在 其 他 
节点 上 存在 两 个 共享 副本 。 图 7-11a 给 出 了 在 这 个 事务 处 理 中 的 点 对 点 消息 交换 。 请 求 节点 发 
送 一 个 BusRdX 消息 到 主 节 点 。 主 节点 搜索 对 应 的 目录 项 ; 找到 后 通过 置 busy 位 将 其 锁定 ， 然 
后 向 两 个 共享 副本 发 送 令 其 无 效 的 消息 。 该 无 效 请 求 经 确认 后 返回 到 主 节点 ， 然 后 主 节点 将 数 
据 块 发 送 给 请 求 者 ， 并重 置 busy 位 以 解除 目录 项 的 锁定 。 图 7-11b 给 出 了 在 MSI- 更 新 协议 中 ， 
当 共 享 节点 上 出 现 store 命中 时 的 点 对 点 消息 发 送 情 况 。 请 求 节点 先 发 出 BusUpdate 请 求 到 主 节 
点 ， 然 后 主 节点 更 新 所 有 远程 共享 副本 (而 不 是 无 效 掉 ) ， 最 后 向 请 求 节点 进行 应 答 ， 确 认 事 
务 结束 。 

BusRdX(1) 






block_reply(4) 


a ) MSI- 无 效 协议 下 的 写 失效 


BusUpdate(1) 





by MSI- 更 新 协议 下 的 写 命中 
图 7-11 MSI 协 议 下 存在 两 个 共享 副本 的 写 访问 执行 情况 


7. 3.3 store 原子 性 


数据 一 致 性 的 作用 在 于 即使 相同 内 存 位 置 对 应 有 多 份 数据 副本 ， 但 是 对 于 软件 来 说 都 好 像 
是 只 有 一 个 副本 似 的。 数据 一 致 性 有 多 种 实现 方法 ， 比如， 避免 相同 内 存 位 置 出 现 多 个 副本 ， 
或 者 将 store 的 值 立即 ( 零 延 迟 ) 更 新 给 所 有 副本 ， 就 好 像 store 操作 是 原子 完成 的 。 后 面 这 种 
情况 通常 叫 作 store 原子 性 。 显 然 ， 假 如 store 操作 可 以 瞬间 影响 所 有 副本 (在 MSI 协议 中 ， 要 
么 是 快速 无 效 掉 其 他 cache， 要 人 么 是 快速 更 新 其 他 cache)， 那 么 一 致 性 就 能 保证 ， 因 为 在 这 种 
情况 下 ， 所 有 多 个 副本 本 质 上 就 和 单个 副本 一 样 。 不 过 ， 现 代 处 理 器 系统 都 需要 cache， 因 此 
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不 可 避免 会 出 现 多 份 副本 的 情况 ; 此外， 复杂 的 cache 事务 处 理 也 不 可 能 瞬间 完成 。 

我 们 从 第 一 个 公开 定义 的 多 处 理 器 一 致 性 协议 开始 介绍 ， 这 个 一 致 性 定义 叫 作 “严格 一 
致 性 ”。 

定义 7.1 (严格 一 致 性 ) 如 果 存 储 系 统 中 的 load 指令 总 是 能 返回 相同 地 址 最 近 一 个 store 
的 值 ， 那 么 称 其 满足 严格 一 致 性 。 

这 种 定义 是 从 单线 程 单 处 理 器 环境 中 借鉴 来 的 ， 这 种 环境 中 存在 明确 的 线程 序 ， 而 在 多 线 
程 系 统 中 却 难以 使 用 ， 因 为 不 同 线程 执行 的 对 相同 地 址 的 load 和 store 操作 的 顺序 是 没有 明确 
定义 的 。 在 多 线程 环境 下 ， 线 程 的 相对 执行 速度 是 不 断 变 化 且 难 以 预测 的 ， 而 且 处 理 器 核 之 间 
也 不 存在 能 够 将 线程 的 load 和 store 信息 瞬间 完成 共享 的 所 谓 “ 超 高 速 ” 链 路 。 

要 想 继续 使 用 严格 一 致 性 的 定义 ， 必 须 对 所 有 相同 地 址 的 -store 操作 实现 全 局 的 时 间 序 ， 
下 面 四 种 方式 可 以 实现 这 样 的 全 局 序 : 

。 第 一 种 方式 是 ， 所 有 内 存 地 址 都 只 维护 单个 副本 ， 但 在 现代 微 处 理 器 中 ，cache 和 数据 

的 多 个 备份 基本 上 是 必需 的 ， 因 此 这 种 方法 实际 意义 不 大 。 

e 第 二 种 方式 是 ， 如 果 对 相同 地 址 的 内 存 访问 在 时 间 上 没有 重合 (或 者 起 码 store 操作 不 
和 load 或 者 其 他 的 store 重 琶 ， 参 见 图 7-8)， 那 么 也 存在 一 个 全 局 的 时 间 序 。 但 这 一 要 
求 在 实际 系统 上 也 基本 上 不 存在 ， 因 此 也 无 法 使 用 。 

。 第 三 种 方式 是 ， 同 一 地 址 的 store 操作 结果 可 以 瞬间 传播 到 系统 范围 内 的 所 有 副本 上 。 
假如 所 有 的 store 值 都 可 以 瞬间 传播 ， 那 么 存在 多 个 副本 也 就 无 关 紧要 ， 因 为 所 有 的 副 
本 都 可 以 一 起 瞬间 更 新 或 者 无 效 ， 看 起 来 就 像 是 只 有 单个 副本 似 的 。 

。 第 四 种 方式 是 ， 依 赖 诸如 同步 原 语 ( 比如 锁 或 者 barrier) 这 样 的 机 制 来 强制 隔离 对 相 
同 内 存 地 址 的 访问 。 这 种 方式 需要 对 多 个 内 存 地 址 进行 仔细 分 析 ， 在 本 章 后 面 的 存储 
模型 部 分 我 们 再 作 介绍 。 

在 本 节 中 我 们 主要 探讨 第 三 种 方式 ， 即 如 何 通 过 维护 store 原子 性 来 保证 存储 系统 中 的 严 
格 一 致 性 。 ! 

若 一 个 事件 瞬间 发 生 ， 即 在 零 时 间 完 成 ， 那 么 称 该 事件 是 原子 的 〈atomic) 。 虽 然 实际 物 
理 系统 中 的 cache 协议 事务 不 可 能 是 原子 的 ， 但 是 通过 体系 结构 层面 的 技术 可 以 对 软件 隐藏 硬 
件 不 满足 原子 性 的 事实 。 这 其 实 是 一 个 老 问题 了 ,在 数据 库 应 用 中 ,数据库 管理 软件 所 看 到 的 
记录 更 新 都 是 原子 的 。 之 所 以 能 做 到 这 一 点 ， 是 因为 数据 库 系 统 可 以 通过 一 个 特殊 操作 来 锁定 
对 某 条 记录 的 访问 ， 并 且 直 到 对 该 记录 的 更 新 完成 之 后 才 释 放 ， 通 过 这 种 方式 ， 数 据 库 系统 隐 
藏 了 在 记录 读 取 和 更 新 过 程 中 的 一 些 中 间 状 态 。 在 解锁 之 前 ， 除 了 当前 正在 修改 它 的 线程 之 
外 ， 其 他 线程 都 无 法 访问 这 条 被 锁 住 的 记录 项 。 

临界 区 同步 (在 本 章 稍 后 部 分 介绍 ) 也 可 以 使 一 串 指令 的 执行 具有 原子 性 。 临 界 区 内 的 
代码 在 同一 时 刻 只 能 被 一 个 线程 执行 ， 并 且 执 行 结果 可 以 通过 一 个 简单 的 store 或 者 解锁 操作 
原子 地 〈 至 少 在 软件 层面 看 起 来 是 原子 的 ) 释放 给 其 他 所 有 的 线程 。 

因此 ， 也 可 以 认为 “原子 性 ”就 意味 着 “不 可 分 割 " ， 这 也 是 这 个 词 最 原始 的 含义 。 “不 
可 分 割 ” 在 本 文中 意味 着 ， 当 一 个 复杂 事件 发 生 时 ， 在 整个 事件 完成 之 前 ， 没 有 哪个 线程 可 以 
观察 到 这 个 事件 引起 的 中 间 变 化 过 程 ， 而 一 旦 事件 完成 ， 其 造成 的 影响 就 对 所 有 线程 可 见 。 在 
物理 系统 中 ， 这 是 实现 复杂 操作 原子 性 的 唯一 可 行 方 法 。 

定义 7.2 (store 原子 性 ) ”如 果 不 同 线程 永远 无 法 同时 观察 到 同一 内 存 位 置 的 不 同 值 ， 
那么 这 个 store 就 是 满足 原子 性 的 。 

在 上 述 定 义 中 ， 对 应 每 个 内 存 地 址 ， 在 任何 时 刻 都 只 能 有 一 个 可 读 取 的 值 。 同 一 份 数据 可 
能 在 不 同 的 存储 结构 中 有 不 同 的 值 ， 但 是 只 有 一 份 是 可 以 通过 load 读 取 到 的 。 这 样 内 存 位 置 的 
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值 可 以 根据 实际 时 间 进 行 定 序 ， 对 于 任意 一 个 给 定 的 内 存 地 址 ， 它 的 值 都 可 以 形成 一 个 全 局 时 
间 序 ， 因 此 ，store 原子 性 保证 了 上 面 定义 的 严格 一 致 性 。 

store 原子 性 是 一 个 很 严格 的 条 件 ， 当 然 ， 在 现 有 的 计算 机 体系 结构 中 ， 存 储 系统 往往 暴露 
给 软件 一 种 假象 ， 即 store 具有 原子 性 ， 这 种 现象 是 完全 可 接受 的 。 因 此 ， 定 义 7.2 中 的 描述 不 
应 该 被 理解 成 一 个 必要 条 件 ， 和 暂时 我 们 把 它 当成 一 个 充分 条 件 。 

基于 总 线 系 统 的 store 原子 性 

图 7-12 给 出 了 一 个 支持 cache 原子 访问 的 理想 总 线 结构 ， 假 设 具有 原子 性 的 存储 系统 部 分 
用 粗 线 表 示 (在 本 章 中 ， 将 用 粗 线 来 表示 支持 原子 性 的 存储 子 系统 ) 。 处 理 器 发 起 的 访 存 操作 
只 要 能 在 本 地 cache 中 完成 ， 那 么 就 可 以 并 发 进行 ， 然 而 ,一旦 处 理 器 不 能 在 本 地 cache 完成 
访 存 操作 ， 就 需要 同时 在 总 线 上 以 及 所 有 cache 中 执行 一 个 原子 性 的 协议 事务 。 





图 7-12 支持 原子 cache 访问 的 cache 系统 


下 面 我 们 将 引进 一 些 形 式 化 的 方法 以 便 进 一 线程 号 线程 号 
步 进行 分 析 ， 在 本 章 余下 部 分 中 , 我 们 将 用 Lai st 人 Ga 
a 中 的 标记 来 表示 load 和 store 的 执行 。 一 se \ Ws 
旦 load 或 store 执行 ， 就 能 知道 对 应 的 值 和 地 址 。 内 存 地 址 SP 

支持 原子 内 存 访问 的 MSI- 无 效 协议 
下 的 严格 一 致 性 ”图 7-14 说 明了 为 什么 支持 原子 
协议 事务 ( Atomic Protocol Transaction，APT) 的 MSI- 无 效 协 议 是 满足 严格 一 致 性 的 ;协议 事务 在 
图 中 用 粗 体 进行 了 标识 。 最 开始 ，cache C1 有 一 个 Modified 状态 的 副本 ， 并 且 在 本 地 完成 了 load 
和 store 操作 。 之 后 ，cache C2 遇 到 一 个 读 失 效 ， 引 起 了 一 个 原子 协议 事务 (APT1) ， 进 而 导致 在 
Cl 和 C2 上 出 现 两 个 共享 副本 。 这 两 个 本 地 副本 一 直 都 只 有 读 操作 ， 直 到 APT2 出 现 ， 此 时 C2 请 
求 一 个 Modified 副本 ， 并 且 通 过 原子 操作 完成 。 最 后 ，APT3 完成 后 ，C1 获得 一 个 Modified 副本 。 
上 述 访 问 在 时 间 上 是 有 序 的 ， 协 议 保证 了 每 个 load 操作 以 时 间 顺 序 返回 最 新 的 store 值 。 


7-13 load 和 store 执行 的 标记 方法 





Cl: 备注 


SL(RA) ai ' INIT: 数据 不 在 C2，A 在 C1 中 修改 
L(A)aY 
sl (A)a2 
L(A)a 
. APT1 : C2 中 读 失 效 ; A 在 C1 和 C2 中 变 为 共享 状态 ; 


Li (A)a> 两 个 线程 都 可 以 读 到 A=a2 的 结果 ; 
线程 都 不 允许 写 操 作 


Li(A)a 
2 
APT2 : C1 中 数据 被 无 效 ，A 在 C2 中 变 成 修改 状态 


APT3: C1 中 发 生 写 失效 ; 
Sl(A)as C2 中 数据 被 无 效 掉 





图 7-14 支持 原子 协议 事务 (MSI- 无 效 协议 ) 的 执行 a 
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例 7. 1 中 的 理想 行为 可 以 在 真实 物理 系统 中 实现 ， 实 际 上 ， 在 20 世纪 80 年 代 早 期 ， 多 处 
理 器 系统 中 的 处 理 器 通过 一 根 电 路 交换 的 总 线 结构 进行 连接 ， 处 理 器 每 次 执行 和 提交 一 条 指 
令 ， 没 有 使 用 store 缓冲 ， 这 有 点 类 似 于 基本 的 五 级 流水 线 。 而 一 致 性 协议 采用 的 是 基于 无 效 
的 方式 。 当 碰 到 访 存 指令 ， 且 cache 状态 需要 协议 介 和 时， 处理 器 就 会 阻塞 住 ， 直 到 访 存 操作 
完成 。 为 了 处 理 该 访 存 操作 ，cache 控制 器 需要 先 获取 总 线 的 使 用 权 ， 并 且 直 到 整个 协议 事务 
完成 之 后 才 进 行 释放 。 因 此 ， 任 何 时 候 只 能 同时 有 一 个 一 致 性 事务 被 处 理 。 在 这 种 系统 中 ,一 
致 性 事务 的 处 理 在 时 间 上 没有 任何 重 肆 ， 因 此 ， 协议 处 理 过 程 严格 按照 有 限 状 态 机 的 规范 进行 
转换 ， 类 似 于 图 7-12 中 所 描绘 的 具有 了 瞬间 完成 、 原 子 性 的 协议 事务 处 理 功能 的 理想 系统 。 

有 人 可 能 会 对 上 面 最 后 一 句 的 说 法 提出 疑义 ， 因 为 电信 和 号 通过 线路 的 时 候 是 存在 延迟 的 。 
在 实际 物理 系统 中 ， 由 于 store 失效 触发 的 总 线 和 协议 事务 必须 通过 总 线 进行 传播 ， 因 此 到 达 
不 同 远 程 cache 的 时 间 可 能 是 不 同 的 。 在 MSI- 无 效 协议 中 ,- 当 store 失效 请 求 发 送 到 总 线 上 ， 但 
是 还 没有 到 达 远 程 处 理 器 上 的 cache 之 前 时 ， 如 果 远 程 处 理 器 本 地 是 Shared 状态 的 副本 ， 那 么 
就 可 以 一 直 对 它 进行 读 操 作 ( 读 的 是 旧 值 )， 而 如 果 处 理 器 本 地 是 M6dified 状态 的 副本 ， 那 么 
就 可 以 一 直 读 或 者 写 这 个 副本 。 这 种 情况 仍然 是 满足 store 原子 性 的 ， 因 为 远程 cache 的 副本 最 
终 会 被 请 求 无 效 掉 ， 并 且 只 有 当 总 线 释 放 后 ， 所 有 处 理 器 才能 访问 到 新 值 。 也 就 是 说 ，“ 新 
值 ” 是 在 总 线 被 释放 的 那 一 刻 ， 同 时 对 所 有 处 理 器 可 见 的 。 总 体 上 来 讲 ， 每 个 存储 地 址 的 数据 
都 会 交替 经 历 两 个 不 同 的 阶段 : 一 个 阶段 是 存在 多 个 副本 ,并且 多 个 副本 是 一 致 的 、 只 读 的 ; 
另 一 个 阶段 是 只 存在 一 个 副本 ， 并 且 这 个 副本 是 可 修改 的 (同样 满足 一 致 性 )。 这 两 个 阶段 之 
间 的 转换 是 原子 性 的 ， 在 任何 时 刻 只 有 一 个 值 能 被 访问 到 。 

需 注意 的 是 ， 原 子 协 议事 务 也 同样 可 以 在 基于 分 离 事 务 的 总 线 结构 上 实现 ， 前 提 是 总 线 协 
议 能 够 保证 ， 针 对 同一 个 存储 块 同 时 最 多 只 能 在 总 线 上 发 起 一 个 协议 事务 。 如 果 有 多 条 总 线 ， 
那么 必须 确保 相同 存储 块 的 事务 总 是 使 用 同一 条 总 线 进行 处 理 。 

定义 7,2 没有 给 出 实现 store 原子 性 的 通用 方法 。 接 下 来 我 们 根据 定义 7. 2 推导 出 确保 store 
原子 性 的 一 个 简单 充分 条 件 ， 在 推导 过 程 中 ,会 引入 几 个 有 用 的 定义 。 | 

访 存 原子 性 的 充分 条 件 

通常 情况 下 ;我 们 认为 load 操作 是 原子 性 的 ， 因 为 load 一旦 获取 到 对 应 的 store 值 后 ， 这 
个 值 就 不 会 再 更 改 ， 一 直到 load 指令 提交 。 男 一 方面 ，store 操作 则 需要 一 定 的 时 间 才 能 将 值 
传播 到 整个 系统 中 。 下 面 先 介绍 一 些 在 本 章 中 会 多 次 用 到 的 定义 。 

定义 7. 3 ( 访 存 完成 ) 

e 当 线 程 的 ]oad 指令 无 法 获取 到 store 操作 之 前 的 值 时 ， 称 该 store 操作 相对 于 线程 1 执 

行 完 成 。 

@ 当 store 操作 对 所 有 线程 都 已 经 完成 时 ， 称 store 操作 全 局 完成 。 

e 当 load 的 值 已 经 锁定 并 且 不 能 被 取消 时 ， 称 load 操作 完成 。 

e@ 当 ]oad 已 经 完成 ， 并 且 产 生 该 load 值 的 store 操作 也 已 经 全 局 完成 时 ， 称 该 load 全 局 

完成 。 

根据 存储 系统 和 处 理 器 的 执行 规则 ，load 的 值 一 旦 锁定 ， 那 么 该 load 操作 就 已 经 完成 。 具 
体 来 讲 ，load 操作 完成 时 ， 它 返回 的 可 能 是 邻近 线程 中 的 任何 有 效 值 (任何 符合 一 致 性 的 值 )， 
而 处 理 器 会 屏蔽 掉 所 有 可 能 影响 这 个 返回 值 的 事件 ， 并 且 将 load 的 值 提交 到 寄存 器 中 。 

在 图 7-3 的 顺序 处 理 器 架构 中 ， 当 load 的 值 被 锁定 之 前 ， 执 行 无 法 继续 推进 ， 因 为 线程 需 
要 这 个 load 的 值 ， 而 load 操作 被 阻塞 住 了 。 要 想 在 load 操作 之 后 继续 执行 ， 更 严格 的 一 个 条 
件 是 要 求 该 load 操作 必须 全 局 完成 ， 这 需要 等 到 产生 该 load 值 的 store 操作 已 经 全 局 完成 
《Globally Performed，GP) 。 后 面 我 们 会 用 GP 值 来 指 代 全 局 完成 的 store 的 值 。 
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定义 7.4 (store 原子 性 的 充分 条 件 ) 。 当 同 时 满足 如 下 条 件 时 ， 我们 认为 存储 系统 满足 
store 原子 性 : 

e 对 所 有 地 址 的 store 操作 可 以 确保 形成 一 个 全 局 序 。 

e 所 有 的 load 操作 都 必须 全 局 完成 。 

这 个 充分 条 件 给 出 了 一 个 实现 store 原子 性 的 可 行 方 法 。 只 要 还 有 一 个 线程 读 到 旧 值 ， 那么 其 
他 线程 也 就 不 可 以 读 到 新 值 ， 因 此 store 操作 看 起 来 就 好 像 正 好 在 全 局 完成 的 那个 时 间 点 上 原 
子 执行 的 一 样 。 注 意 这 个 充分 条 件 没 有 规定 处 理 器 核 具 体 以 什么 方式 处 理 store: 这 意味 着 即使 
store 还 没有 全 局 完成 ， 处 理 器 核 也 还 可 以 继续 处 理 其 他 操作 。 这 一 特征 非常 关键 ， 因 此 图 7-3 
中 的 store 缓冲 可 以 发 挥 作用 。 需 要 记 住 的 是 ， 同 一 个 线程 内 部 对 相同 地 址 的 load 和 store 必须 
按照 线程 序 执行 ， 以 确保 线程 内 部 的 依赖 关系 。 在 本 章 中 ， 始 终 假 定 这 个 条 件 是 默认 成 立 的 。 

图 7-15 展示 了 在 一 个 满足 store 原子 下 
性 的 系统 中 ,数据 值 随时 间 的 变化 情况 。 城 程 1 ee ad | | ad 时 间 
两 个 不 同 线程 的 load 和 store 操作 的 生命 周 ph load .store (az)| store (as) 

期 在 图 中 用 间隔 表示 。 需 注意 的 是 ，store 

操作 相关 的 行为 在 store 全 局 完成 之 后 仍然 二 a ags 

可 能 还 继续 存在 ，load 值 锁定 的 时 间 点 也 Ee 

各 不 相间 。 图 中 灰色 的 坚 线 表明 了 store 操 ”“ “局 下 性 系统 中 的 爹 局 完成 入 且 认 
作 全 局 完成 所 对 应 的 时 间 点 ， 线 程 1 的 第 一 个 load 必须 返回 al， 这 是 因为 在 load 的 生命 周期 
中 返回 的 值 是 锁定 不 变 的 ， 而 其 他 两 个 load 所 返回 的 值 则 依赖 于 它们 对 值 进行 锁定 的 时 间 以 及 
在 锁定 值 的 时 刻 哪 个 值 已 经 全 局 完成 。 线 程 2 的 第 一 个 load 只 能 返回 a0: 或 者 al ， 而 线程 1 的 
第 二 个 load 则 只 能 返回 al 或 者 2 ， 请 记 住 load 只 能 返回 已 经 全 局 完成 的 值 。 

要 想 对 相同 存储 地 址 的 store 操作 进行 全 局 定 序 ， 在 SMP 系统 中 可 以 通过 总 线 实现 ， 在 cc- 
NUMA 系统 中 则 可 以 通过 目录 控制 器 (通过 目录 中 的 busy 位 进行 定 序 ) 实现 。 而 对 于 load 操 
作 来 讲 ， 要 进行 全 局 定 序 似乎 更 加 困难 ， 因 为 没有 谁 会 通知 处 理 器 load 的 值 已 经 全 局 完成 了 ， 
不 过 ， 在 一 些 重 要 和 常见 的 实际 情况 中 ，load 全 局 完成 的 条 件 其 实 比较 容易 满足 。 前 面 我 们 已 
经 介绍 了 在 基于 侦 听 总 线 、 支 持 MSI- 无 效 协 议 的 SMP 系统 中 的 一 致 性 实现 ， 下 面 我 们 将 根据 
定义 7.4 介绍 在 cc-NUMA 和 目录 协议 下 的 一 致 性 实现 。 

cc-NUMA 中 的 store 原子 性 ”考虑 图 7-11a 中 的 cc-NUMA 协议 事务 ， 在 MSI- 无 效 
协议 中 ， 当 存在 两 个 远程 Shared 状态 副本 的 时 候 ， 会 发 生 写 失效 。 参 考 图 7-16, 线程 T0 (请 
求 者 ) 在 时 间 t0 发 送 一 个 BusRdX 到 主 节 点 。 主 节点 在 世 时 接收 到 这 个 请 求 ; 然后 通过 设置 
busy 位 来 锁定 该 目录 项 。 通 过 对 内 存 块 所 对 应 目录 项 的 锁定 ， 主 节点 确保 没有 任何 线程 可 以 重 
新 获得 这 个 内 存 块 的 副本 ， 因 此 确保 了 对 这 个 块 的 所 有 store 操作 可 以 进行 全 局 定 序 。 然 后 ， 
在 时 间 贡 ， 主 节点 向 TO 的 cache 发 送 了 一 个 块 副本 ,该 副本 在 已 时 刻 被 接收 到 ， 同 时， 主 节 
点 还 向 Tl 和 T2 的 cache 发 送 无 效 信和 号， 到 3 时 主 节点 接收 到 了 Tl 和 也 返回 的 所 有 无 效应 
答 ， 于 是 在 目录 项 中 清空 busy 位 ， 然 后 发 送信 号 给 T0， 告 知 其 对 应 的 store 访问 已 经 全 局 完成 
了 ,该 信号 在 坪 时 刻 被 TQ 接收 到 。 通 过 在 3 时 刻 对 目录 项 进行 解锁 ， 之 后 所 有 线程 就 都 可 以 
获取 到 store 的 新 值 了 。T0 在 性 时 完成 了 对 应 的 store 操作 ， 然 后 继续 执行 其 他 指令 。 

根据 定义 7.2， 上 述 处 理 过 程 是 满足 store 原子 性 的 。 在 cache 接收 到 无 效 信号 之 前 ，T1 和 
T2 读 到 的 一 直 是 最 新 的 GP 值 。 当 cache 接收 到 无 效 信 号 并 将 对 应 数据 块 副 本 无 效 后 ， 会 再 发 
送 应 答 消息 给 主 节 点 。 这 时 它们 无 法 再 访问 到 旧 的 GP 值 ， 必 须 通过 cache 失效 来 获取 到 新 值 ， 
而 cache 失效 只 能 在 busy 位 被 清空 之 后 才能 完成 。 
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主 节点 线程 TO ( 请 求 者 ) ”线程 T1 (共享 状态 ) 线程 T2 ( 共享 状态 ) 





图 7-16 cc-NUMA 系统 中 MSI- 无 效 协 议 下 的 store 失效 处 理 


再 考虑 一 个 更 加 “放松 ”的 策略 。 假 设 在 包 时 接收 到 块 副本 ,TO 《以 及 其 他 共享 其 cache 
的 线程 ) 认为 它 获 得 了 一 个 修改 状态 的 副本 ， 并 且 将 store 操作 值 写 人 cache 中 的 X。 然 而 ， 这 
个 store 还 不 是 GP 的 ,因为 其 他 线程 ( 比如 Tl 和 T2) 仍然 可 以 读 取 到 X 旧 的 GP 值 。 由 于 
cache 一 致 性 是 按照 块 级 别 来 维护 的 ， 针 对 该 块 本 地 副本 的 后 续 其 他 store 操作 也 都 有 类 似 的 
问题 。 

根据 定义 7.4 中 的 充分 条 件 ， 要 想 保证 store 的 原子 性 ， 那 么 在 包 和 妇 4 之 间 ，T0 上 的 任何 
对 X 的 load 操作 都 不 允许 返回 store 的 最 新 值 ， 因 为 不 同 线程 可 能 会 看 到 两 个 不 同 的 值 。 如 果 
这 个 数据 块 的 其 他 位 置 在 刀 之 后 也 被 修改 了 ,那么 上 述 情况 同样 适用 。 当 运行 线程 TO 的 处 理 
器 核 同时 也 被 其 他 线程 共享 时 ( 比如 核 内 多 线程 结构 ) ， 或 者 当 cache 被 多 个 核 共 享 时 ， 这 一 
限制 会 更 加 严格 。 因 为 在 这 种 情况 下 ，cache (被 多 个 本 地 线程 共享 ) 的 块 副本 可 以 被 所 有 的 
共享 线程 使 用 ， 并且 这 些 共享 线程 都 可 以 在 这 个 数据 块 上 进行 load 或 store 操作 ， 因 此 导致 多 
个 线程 对 于 非 GP 值 的 扩散 使 用 。 

在 更 新 协议 下 ，store 原子 性 的 充分 条 件 更 加 难以 保证 。 图 7-11b 显示 了 在 一 个 共享 状态 数 
据 块 上 发 生 store 命中 时 的 一 致 性 处 理 过 程 ， 该 共享 状态 数据 块 有 两 个 远程 共享 副本 。 因 为 更 
新 操作 传播 到 Tl 和 T2 可 能 有 不 同 的 延迟 ， 在 很 长 的 一 段 时 间 里 ，T1 可 能 读 取 到 新 值 ， 而 人 2 
还 在 读 旧 值 。 这 暴露 了 硬件 上 缺乏 对 store 原子 性 的 保证 。 通常 的 解决 办 法 是 ， 让 主 节点 的 目 
录 控制 器 给 TI 和 T2 发 送 更 新 值 ， 并 将 更 新 值 锁定 在 它们 的 cache 中。 这 时 没有 哪个 线程 能 再 
返回 “ 旧 ” 数 据 ， 因 此 store 操作 全 局 完成 。 等 Tl 和 T2 的 更 新 应 答 返回 到 主 节点 之 后 ， 主 节 、 
点 会 通知 TO 其 store 操作 完成 ， 同 时 发 送 第 二 波 消息 给 Tl 和 T2 的 cache， 将 新 值 进行 解锁 。 在 
吉 和 也 之 间 ，TO 的 cache 更 新 一 直 被 锁定 ， 图 7-17 显示 了 整个 操作 的 原子 事务 过 程 。 < 

在 图 7-16 和 图 7-17 中 的 协议 处 理事 务 中 ， 当 load 操作 的 值 从 存储 系统 返回 并 被 锁定 时 ， 
该 操作 就 已 经 自动 全 局 完成 。 这 类 存储 系统 保证 了 访 存 操 作 的 原子 性 ， 我 们 称 之 为 原子 存储 
系统 。 


7.3;4 纯 一 致 性 
store 操作 原子 性 的 条 件 非 常 严格 ， 在 实际 中 可 能 并 不 一 定 是 必需 的 ; 一 致 性 问题 的 出 现 是 
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主 节 点 线程 T0【 请 求 者 】 ”线程 T1 ( 共享 数据 ) ”线程 T2 ( 共享 数据 ) 








更 新 操作 ( 加 锁 ) 


更 新 操作 ( 加 锁 ) 
LI(X)0 


Le(X)0 


过 store GP 信 号 ( 解锁 ) 
实际 时 间 


图 7-17 cc-NUMA 中 MSI- 更 新 协议 下 的 原子 store 事务 


由 于 系统 中 对 应 同一 位 置 的 数据 可 能 在 多 个 地 方 存 在 多 个 副本 ， 要 证 明 系统 中 的 多 个 副本 是 满 
足 一 致 性 的 ， 只 需要 证 明 该 系统 和 只 存在 单一 副本 的 系统 是 等 价 的 即 可 。 我们 将 这 种 放松 形式 
的 一 致 性 则 作 纯 一 致 性 ， 或 者 简称 为 一 致 性 ， 忆 区 分 之 前 从 细 的 开 格 -下 各 性 以 中 stotS 原 隆 性 
一 致 性 的 形式 模型 
图 7-18a 显示 的 是 传统 的 一 致 性 形式 模型 ， 在 该 模型 中 ， 多 个 线程 共享 单个 内 存 位 置 X。 
除了 访问 X 的 操作 ， 线 程 还 执行 其 他 指令 ， 比 如 算术 操作 、 浮 点 运算 、 分 支 / 跳 转 ， 以 及 对 其 
他 地 址 的 访问 等 ， 但 这 些 指令 都 不 属于 形式 模型 的 一 部 分 。 





线程 
a ) 一 致 性 的 形式 化 模型 
L2(X)0 。 S4(X)1  L2(X)2 L3(X)2 Ss3X)3 LX)4 L'(X)4 
S1(X)0 L3(X)0 S2(X)2 , L2(X)2 L4(X)2 ~ S3(X)4 LI(X)4 


b ) 一 致 的 访问 顺序 
图 7-18 一 致 性 的 形式 化 模型 和 一 致 的 访问 顺序 


形式 模型 的 规则 如 下 : 
。 在 同一 时 刻 ， 每 个 线程 只 能 有 一 个 对 内 存 位 置 X 的 访问 ， 且 多 次 访问 之 间 按 线程 序 
进行 。 
。 在 同一 时 刻 ， 只 能 有 一 个 针对 内 存 位 置 X 的 访问 在 执行 并 完成 。 
由 定义 可 以 看 出 ， 系 统 对 每 个 内 存 位 置 进行 访问 时 ， 如 果 都 能 按照 线程 序 正确 执行 ， 就 像 
在 只 有 单一 副本 的 系统 上 执行 时 一 样 ， 那 么 该 系统 就 是 一 致 的 。 在 目标 系统 上 的 每 一 一 次 正确 执 
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行 ， 都 要 求 其 内 存 位 置 访 问 必须 符合 形式 化 模型 中 正确 执行 的 定义 。 

定义 7.5 ( 纯 一 致 性 ) 系统 是 ( 纯 ) 一 致 性 的 ， 当 且 仅 当 在 每 次 执行 中 ， 都 可 以 针对 每 
个 存储 位 置 的 所 有 访 存 操作 构建 出 一 个 串 行 序 ， 并 满足 : 

e@ 每 个 线程 对 该 存储 位 置 的 访 存 操作 都 满足 线程 序 ; 

e@ Load 操作 返回 的 值 是 对 同一 位 置 、 串 行 序 中 最 近 的 一 次 store 操作 存储 的 值 。 

Store 原子 性 保证 了 严格 一 致 性 ， 因 为 对 相同 地 址 的 访 存 操作 可 以 建立 一 个 时 间 序 。 而 不 依赖 
于 对 其 他 内 存 地 址 的 访问 。 在 纯 一 致 性 中 ， 序 列 顺序 可 以 是 任何 有 效 的 顺序 (不 一 定 是 时 间 
序 ) 。 所 以 ， 基 于 store 原子 性 的 严格 一 致 性 是 一 种 特殊 的 、 重 要 的 纯 一 致 性 的 特例 。 

图 7-18b 显示 了 对 同一 内 存 位 置 X 的 一 个 执行 序列 的 假定 ， 该 执行 过 程 是 程序 的 一 次 特定 
运行 的 结果 。 执 行 过程 从 一 致 性 形式 化 模型 的 角度 来 看 是 正确 的 ， 如 果 其 满足 以 下 条 件 : 对 同 
一 地 址 的 所 有 访问 可 以 形成 一 个 串 行 序 ， 每 个 线程 内 的 所 有 访 存 操作 也 都 满足 线程 序 ， 并 且 
load 操作 也 总 是 能 返回 线程 序 中 最 近 的 store 值 。 要 证 明 这 一 点 ， 可 以 简单 按照 图 7-18b 所 示 的 
顺序 每 次 取 一 个 访 存 操作 调度 到 图 7-18a 所 示 的 形式 化 模型 中 。 反 过 来 ;图 7-18a 模型 中 的 所 
有 有 效 执行 也 可 以 根据 图 7-18b 进行 排序 。 

要 证 明 系 统 满足 一 臻 性， 那么 对 于 所 有 可 能 的 执行 过 程 ， 需 要 针对 相同 位 置 的 所 有 访 存 操 
作 找 到 一 个 对 应 的 串 行 序 ， 而 这 已 经 被 证 明 是 一 个 NP 完全 问题 ， 因 此 实际 难以 实现 。 更 重要 
的 是 ,程序 的 执行 过 程 是 不 可 计算 、 难 以 判断 的 (类 似 测试 )， 因 为 可 能 的 执行 情况 数量 是 无 
穷 的 。 因 此 ,实际 硬件 中 必须 限制 可 能 的 执行 情况 ， 并 且 确 保 对 于 所 有 可 能 的 执行 情况 都 能 建 
立 一 个 串 行 序 。 要 实现 这 一 点 ， 通 常 需要 在 访 存 硬 件 中 增加 一 些 串 行 点 或 者 瓶颈 点 (比如 总 线 
或 者 目录 锁 ) 。 

下 面 我 们 探讨 一 种 不 支持 store 原子 性 ;但 是 仍然 满足 ( 纯 ) 一 致 性 的 存储 系统 ， 在 这 一 
部 分 中 ,将 介绍 如 何 基 于 硬件 上 的 限制 ;为 任意 位 置 的 访 存 执行 都 构建 一 个 捉 行 序 ， 进 而 通过 
这 种 系统 性 方法 来 检测 系统 的 一 致 性 。 

支持 前 递 store 缓冲 的 纯 一 致 性 

一 个 不 支持 store 原子 性 但 是 满足 一 致 性 的 硬件 例子 是 带 有 store 缓冲 并 且 store 可 以 前 递 给 
load 的 系统 。 图 7-19 显示 的 就 是 这 种 架构 。 该 架构 中 ,load 操作 可 以 返回 来 自 同一 线程 store 
缓冲 的 值 ， 从 而 绕 过 cache 以 及 整个 存储 系统 。 需 注意 的 是 store 缓冲 是 线程 私有 的 ， 不 受 
cache 一 致 性 协议 影响 。 


原子 性 cache 协 议 转 换 





7-19 支持 前 递 store 缓冲 的 多 处 理 器 
为 了 简化 问题 ， 重 点 考虑 支持 前 递 的 store 缓冲 的 影响 。 假 定 所 有 的 cache 访问 都 是 原子 性 
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的 ， 根 据 定义 7.4 中 的 充分 条 件 ， 整 个 系统 不 满足 store 原子 性 ， 因 为 load 操作 可 能 返回 非 GP 
的 值 ， 并 且 不 同 线程 可 能 在 同一 时 间 读 取 到 不 同 的 值 。 不 过 ， 系 统 仍 然 满足 一 致 性 ， 我 们 在 下 
面 将 会 进行 说 明 。 

图 7-19 架构 中 的 处 理 器 采用 图 7-3 中 所 示 结 构 ，store 缓冲 在 写 回 数据 的 cache 之 前 ， 在 
MSI- 无 效 协 议 下 ，store 操作 在 store 缓冲 中 完成 并 退出 。 对 相同 地 址 的 多 个 store 操作 会 在 store 
缓冲 中 进行 合并 ， 如 果 store buffer 中 已 经 有 了 某 个 内 存 地 址 对 应 的 项 ， 那 么 之 前 的 旧 的 store 会 
被 覆盖 掉 ， 以 保证 store 缓冲 中 保存 的 是 对 应 每 个 地 址 的 最 新 store 操作 。load 操作 在 访问 cache 
时 优先 级 比 store 更 高 ， 如 果 在 store 缓冲 中 没有 load 地 址 所 对 应 的 项 ， 那 么 load 也 可 以 跳 过 
store 缓冲 中 待 处 理 的 store 操作 ; 而 如 果 在 store 缓冲 中 有 对 应 项 ， 那么 store 的 值 会 直接 前 递 给 
load 操作 。 

图 7-20 中 给 出 了 一 个 支持 前 递 store 缓冲 (图 7-19 所 示 ) 系统 执行 的 例子 。 除 了 线程 访 
问 ， 我 们 也 给 出 了 cache 原子 访问 的 时 间 点 。 当 store 操作 从 store 缓冲 中 移出 的 时 候 ， 它 对 
cache 进行 更 新 。 我 们 用 WB 来 表示 这 些 cache 更 新 。 大 部 分 访 存 操作 (load 和 store) 都 是 在 
store 缓冲 中 本 地 完成 ，cache 中 全 局 完成 的 访 存 操作 用 粗 体 标示 了 出 来 。 一 部 分 cache 访问 命 
中 ， 而 其 他 的 cache 访问 则 引发 了 原子 协议 事务 ( Atomic Protocol Transaction，APT) 。 这 个 执行 
示例 表明 ,在 支持 前 递 store 缓冲 的 系统 中 ，store 操作 不 是 原子 性 的 ， 因 为 在 大 多 数 情况 下 ， 
不 同 处 理 器 的 load 操作 可 以 同时 返回 不 同 的 值 。 如 果 我 们 不 清楚 产生 这 一 现象 的 硬件 结构 特 
征 ， 那 么 很 可 能 会 认为 存储 系统 完全 是 无 序 的 。 


T3 cache 状态 备注 
ci C2 C3 
L3(R)ao---- NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 
NIC NIC SHA 


Miss in C3} 


Ss3 (A)a, 


Li (A)al 


S2 (A)as 
L3 (A)a> 
S1L(RA) aa 
L? (A)as 
Ll (及 ) aa 
E2 (AYa3 


t10 WB! (A)as Miss in Cl; 


t11 L(A)as 


DTY NIC INV 
INV DTY INV 
SHA SHA INV 
SHA SHA INV 
INV INV MOD 
SHA INV SHA 
SHA INV SHA 
SHA SHA SHA 
SHA SHA SHA 
SHA SHA SHA 


Hit in C1 


Miss in C2; 
Miss in Ci; 


Miss in C3; 
Miss in C1; 
Hit in C3 

Miss in C27 


Upgrade in C2; RPT8 





图 7-20 支持 前 递 store 缓冲 系统 中 的 执行 


即使 在 大 多 数 情况 下 ， 不 同 线程 的 load 操作 会 返回 不 同 的 值 ， 但 该 系统 仍然 满足 一 致 性 ， 
因为 针对 某 一 特定 内 存 位 置 的 所 有 执行 都 可 以 按照 图 7-18 中 的 形式 化 模型 来 表示 成 有 效 执行 。 
要 证 明 这 点 ,需要 有 一 个 系统 性 方法 一 一 可 以 为 同一 地 址 的 所 有 访 存 生成 一 个 全 局 序 。 原 子 的 
cache 系统 刚好 提供 了 一 个 硬件 上 的 “瓶颈 ”点 ， 可 以 作为 实现 全 局 序 的 关键 。 
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首先 , 我们 从 对 所 有 全 局 完成 (GP) 的 访问 进行 定 序 开始 ， 比 如 cache 中 的 原子 执行 
操作 : 
L3(A)ao < WB!(A)as < L!(A)as < WB’*(A)as < L!(A)as < WB’(A)a 
< LI(A)az < L3(A)az < L(A)as < WB2(A)a6 


上 述 顺序 中 ，WB 不 是 线程 中 的 访问 ， 而 是 标记 了 从 store 缓冲 对 cache 进行 更 新 的 时 间 点 。 对 
cache 的 更 新 操作 是 随机 发 生 的 (只 要 cache 带宽 足够 ) ， 其 时 序 取决 于 对 其 他 内 存 位置 的 store 
操作 。 

第 二 步 是 将 全 局 序 中 的 WB 进一步 扩展 为 正在 退出 的 store 缓冲 项 中 的 所 有 load 和 store: 


L3(A)ao < SI(A)ai < L!(A)al < Si'(A)as < LI(A)ak < LI(A)aa < S*(A)as 
< L(A)as < L2(A)aas < S*(A)as < LI(A)as < S3(A)a, < L3(A)az 
< L3(A)az <LI(A)az < L’(A)as < L*(A)as < S*(A)ac < L*(A)ae 


在 这 个 全 局 序 中 , 来 自 每 个 线程 的 访问 符合 线程 序 ，load 操作 按 顺 序 返 回 最 新 的 store 的 值 ， 
因此 图 7-20 的 执行 过 程 是 满足 一 致 性 的 。 需 注意 的 是 一 致 性 序 和 值 的 时 间 序 是 不 一 样 的 。 
e 值 的 时 间 序 为 : ao <al <a2<a3<a#4<as<as 
。 值 的 一 致 性 序 为 ao <al <a4 <a3<as<a2<a6 
不 过 所 有 线程 观察 到 的 值 的 顺序 是 相同 的 ， 都 符合 一 致 性 序 : 
e Tl 观察 al <a <as<az 
e 1T2 观察 aa < as <a <a6 
e T3 观察 ao < az 
线程 在 一 致 性 序 中 会 跳 过 一 些 值 ， 这 是 因为 它们 没有 对 应 的 load 操作 可 以 观察 到 这 些 值 。 不 
过 ， 它 们 能 观察 到 的 值 都 是 满足 一 致 性 序 的 。 我 们 的 结论 是 : hs Si ne store 妆 让 的 系统 
都 是 满足 一 致 性 的 。 
一 般 化 推广 
上 面 基于 前 递 store 缓冲 分 析 所 获得 的 经 验 可 以 做 直接 的 推广 ， 这 里 不 再 给 出 繁琐 的 例子 ， 
形式 化 验证 会 作为 一 个 习题 放 在 后 面 。 这 里 可 以 先 定义 一 个 关于 一 致 性 的 “私有 原则 ”: 在 某 
个 最 新 的 store 值 传播 到 其 他 线程 之 前 ， 线 程 可 以 通过 load 获取 并 使 用 该 最 新 的 store 值 ， 而 不 
会 违反 一 致 性 。 原 因 在 于 其 他 线程 观察 不 到 这 个 本 地 值 ， 我 们 可 以 在 这 个 本 地 值 变 成 GP 时 ， 
直接 将 这 个 本 地 访问 插入 到 全 局 序 当 中 。 
在 例 7.3 中 ,我 们 在 store 缓冲 中 使 用 了 非常 激进 的 策略 将 所 有 相同 地 址 的 store 进行 了 合 
并 ,我 们 也 可 以 不 使 用 这 么 激进 的 策略 ， 只 要 load 可 以 获取 到 最 新 的 store 值 ， 那 么 这 种 store 
缓冲 仍然 是 可 以 满足 一 致 性 的 。 当 然 ， 如 果 store 缓冲 不 支持 前 递 ， 也 不 会 违反 store 原子 性 ， 
这 种 情况 下 ，load 必须 总 是 在 cache 中 获取 到 GP 值 后 才能 完成 。 : 
我 们 还 可 以 按照 下 列 方式 做 进一步 的 一 般 化 推广 ， 在 逻辑 上 和 支持 前 递 的 store 缓冲 结构 
是 等 价 的 ， 并且 也 支持 纯 一 臻 性， 但 是 不 支持 store 原子 性 。 
。 无 锁 cache 中 ， 在 store 失效 还 未 完成 的 时 候 ， 可 以 分 配 新 的 cache 行 ， 本 地 的 load 和 
store 操作 也 可 以 读 写 该 cache 行 。 
。 多 线程 CMP 系统 中 ， 共 享 同一 个 核 的 多 个 线程 ， 或 者 共享 同一 个 cache 的 多 个 处 理 器 核 ， 
都 可 以 在 cache 中 互相 读 取 到 对 方 的 值 ， 即 使 这 个 值 还 没有 完成 (不 是 G6P 的 ) 。 直 觉 上 ， 
我 们 也 可 以 通过 在 各 层次 cache 中 应 用 上 面 介 绍 的 “私有 原则 ”获得 上 述 结论 。 
。 在 多 层 cache 系统 中 ， 核 组 或 者 多 核 之 间 可 以 在 各 层次 的 共享 缓冲 区 或 者 共享 无 锁 
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cache 中 对 一 些 非 CP 值 进行 共享 。 
。 在 支持 无 效 协议 的 ce-NUMA 系统 中 ， 即 使 目录 中 对 应 的 一 致 性 事务 还 没有 完成 ， 线 程 
也 可 以 对 本 地 接收 到 的 数据 块 进行 修改 并 使 用 修改 值 ， 也 可 以 在 其 他 的 本 地 线程 之 间 
共享 这 些 值 。 如 图 7-16 中 的 例子 所 示 ， 图 中 的 灰色 区 域 描述 了 这 类 系统 中 纯 一 致 性 和 
store 原子 性 之 间 的 区 别 。 
通常 情况 下 ,线程 或 者 线程 组 在 存储 系统 中 有 一 个 store 流水 线 ， 流 水 线 中 保存 了 来 自 线 
程 或 者 线程 组 的 所 有 未 完成 的 store 操作 ， 即 使 对 应 的 store 值 还 没有 完成 全 局 广播 ， 线 程 或 线 
程 组 也 可 以 从 store 流水 线 中 读 取 数据 ， 这 不 会 违反 纯 一 致 性 。 
和 定义 7.4 中 的 store 原子 性 相 比 ， 这 里 需要 针对 所 有 store 操作 找到 一 个 可 串 行 化 的 点 ， 
这 是 一 致 性 存储 系统 中 的 重要 部 分 。 这 个 串 行 化 点 是 实现 所 有 可 能 排序 的 关键 。store 操作 的 串 
行 化 可 以 在 不 同 级 别 上 进行 ， 比 如 在 CMP 系统 上 ， 或 者 在 集群 系统 /多 芯片 多 处 理 器 系统 级 别 
上 。 不管 在 什么 级 别 上 ， 存 储 操作 最 终 都 必须 全 局 排序 。 假 如 load 的 值 最 终 也 可 以 全 局 排序 ， 
那么 load 操作 就 不 需要 等 到 对 应 的 GP 值 才能 完成 。 因 此 ， 在 一 致 性 存储 系统 中 ，load 操作 可 
能 比 在 store 原子 性 存储 系统 中 更 早 提交 。 在 一 致 性 存储 系统 中 ，load 操作 只 需要 将 它 的 返回 
值 锁定 到 最 近 的 一 致 性 副本 中 即 可 ， 即 使 这 个 值 还 不 是 GP 的 也 没 问题 。 而 在 store 原子 性 系统 
中 ，load 操作 返回 的 值 必须 是 GP 的 。 
纯 一 致 性 的 重要 性 
乍 看 起 来 ，( 纯 ) 一 致 性 的 条 件 似乎 非常 弱 ， 因 此 ， 人 们 可 能 会 问 : 是 否 存在 某 种 执行 情 
况 不 满足 一 致 性 ? . 
为 了 阅 述 一 致 性 的 主要 影响 ,我 们 先 回顾 一 下 纯 一 致 性 的 定义 : 对 于 所 有 的 执行 情况 ， 必 
须 为 同一 地 址 的 所 有 访问 找到 一 个 一 致 的 串 行 序 ， 以 确保 线程 内 的 所 有 访问 满足 线程 序 。 下 面 
使 用 三 个 例子 来 说 明 ， 所 有 例子 中 都 访问 相同 的 内 存 位 置 。 
线程 12 观察 到 线程 TI 两 个 store 操作 的 乱 序 执行 结果 如 下 ， 证 明 这 个 执行 过 程 不 
满足 一 致 性 。 


Td T2 
Si (A)ai L? (A)a> 
Sl (A) a2 L2 (A)ai 


在 上 面 的 例子 中 ，12 的 load a2 操作 必须 在 Tl 中 的 store a2 操作 之 后 。 并 且 由 于 在 任何 有 效 的 
一 致 性 序 中 ，T1 的 两 个 store 操作 都 必须 满足 线程 序 ， 因 此 T2 的 第 二 个 load 操作 是 不 可 能 返回 
al 的 。 可 

线程 T1 和 1T2 的 load 操作 分 别 获取 到 对 方 的 store 操作 结果 ， 证 明 这 个 执行 过 程 不 
满足 一 致 性 。 

T1 T2 

SAA)as S2 (A) az 

Lr (RA) az L? (A)ai 
如 果 Tl 的 load 操作 返回 的 是 2， 那 么 在 一 致 性 序 中 ，T2 的 store 操作 一 定 是 在 Tl 的 store 和 
load 操作 之 间 执 行 ， 在 这 种 情况 下 ，T2 的 load 操作 不 可 能 返回 a, ， 因 为 a 对 应 的 store 操作 早 
于 a, 对 应 的 store 操作 。 | 

线程 T3 和 T4 观察 到 线程 TI 和 人 T2 两 个 store 操作 具有 不 同 的 顺序 ， 证 明 这 个 执行 
过 程 不 满足 一 致 性 。 
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外 也 T2 于 可 T4 
Si(A)at, SS?(A)as  L3(R)al L(A)az 
L’ (A) az L4 (R) al 
T3 的 load 操作 先 返 回 Tl store 的 值 ， 然 后 再 返回 T2 store 的 值 ， 而 T4 的 load 操作 观察 到 的 两 个 
store 操作 的 值 的 顺序 刚好 相反 。 我 们 无 法 为 上 述 6 个 访 存 操作 构造 出 一 个 满足 一 致 性 的 顺序 。 
图 7-18 所 示 的 一 致 性 实现 中 包含 了 存储 系统 和 处 理 器 ， 通 过 下 面 这 个 例子 ， 我 们 可 以 看 
到 一 致 性 的 实现 是 需要 非常 谨慎 的 。 本 
支持 推测 乱 序 执行 的 处 理 器 违反 纯 一 致 性 ”除非 采用 特别 处 理 ， 否 则 乱 序 执行 
(0o0) 处 理 器 中 的 load/store 队列 可 能 会 违反 纯 一 致 性 。 再 次 考虑 例 7.3 中 的 代码 ，T2 的 load 
观察 到 Tl 的 store 操作 乱 序 完 成 ， 注 意 人 2 这 两 个 load 的 地 址 相同 。 这 种 现象 在 支持 推测 乱 序 
执行 处 理 器 的 load/store 队列 中 是 可 能 发 生 的 ， 因 为 T2 中 两 个 load 操作 的 地 址 可 能 来 自 于 不 同 
的 地 址 寄存 器 。 在 这 个 例子 中 ，T2 的 第 一 个 load 操作 可 能 由 于 等 待 地 址 而 在 load/store 队列 中 
被 延迟 处 理 ， 而 第 二 个 (最 新 的 那个 ) load 操作 却 已 经 就 结 。 除 非 在 load/stoe 队列 中 采取 特 
殊 处 理 ， 否 则 第 二 个 load 操作 可 能 返回 Tl 的 第 一 个 store 操作 的 值 ， 然 后 ，T2 的 第 一 个 (最 
老 的 ) load 操作 返回 T2 的 第 二 个 store 的 值 ， 正 如 例 7.3 中 描述 的 那样 ， 这 种 现象 违反 了 纯 一 
致 性 。 为 了 避免 这 个 问题 ， 远 程 的 store 操作 必须 侦 听 load 队列 ， 并 且 对 具有 相同 地 址 的 项 进 
行 标记 。load 操作 在 发 送 到 cache 之 前 ， 必 须 检查 是 否 存 在 更 新 的 load 操作 ， 如 果 发 现 有 更 新 
的 带 标记 的 load 项 已 经 返回 了 值 ， 那 么 执行 过 程 必须 进行 回 滚 ,， 因 为 继续 执行 会 违反 纯 一 致 性 。 
在 第 3 章 中 ， 我 们 没有 对 load 发 送 到 cache 后 的 上 述 额外 操作 进行 介绍 ， 这 是 因为 load-load 依赖 
关系 并 不 会 在 单 处 理 器 中 引起 任何 冲突 ， 不 过 ， 在 多 处 理 器 环境 中 ， 这 种 机 制 就 是 必需 的 。 < 
上 述 例子 简单 说 明了 纯 一 致 性 的 形式 化 定义 ， 通 过 这 一 定义 ， 系 统 必须 强制 为 相同 地 址 的 所 
有 store 操作 建立 一 个 全 局 序 。 除 了 确保 这 一 特性 之 外 ， 纯 一 致 性 的 价值 还 体现 在 以 下 几 个 方面 : 
”。 对 纯 一 致 性 的 支持 有 助 于 存储 一 致 性 的 实现 。 借 助 纯 一 致 性 的 支持 可 以 及 时 、 有 选择 
地 、 高 效 地 (借助 一 致 性 协议 提供 的 过 滤 机 制 ， 以 及 快速 前 递 请求 和 应 答 的 硬件 机 
制 ) 完成 值 的 传播 ， 存 储 一 致 性 的 内 容 将 在 本 章 后 面部 分 进行 介绍 。 
。 对 纯 一 致 性 的 支持 可 以 确保 当 计算 过 程 突然 中 止 时 (比如 碰 到 上 下 文 切 换 )， 在 所 有 
处 理 指令 执行 完毕 ， 并 且 网 络 和 所 有 的 缓冲 区 都 已 经 排 空 之 后 ， 存 储 系统 可 以 进入 到 
一 个 一 致 的 状态 。 在 图 7-20 的 例子 中 ， 新 的 上 下 文 开始 运行 之 前 ， 所 有 store 缓冲 中 的 
值 都 必须 全 局 完成 ， 因 此 在 上 下 文 切换 之 前 ， 需 要 在 整个 系统 中 全 局 完成 所 有 的 值 并 
进行 排序 (使 用 和 图 7-20 中 建立 全 局 序 完 全 一 样 的 步 又) 。 
se。 和 上 面 的 原因 类 似 ， 纯 一 致 性 还 能 解决 由 于 线程 迁移 所 引起 的 存储 相关 问题 。 
纯 一 致 性 的 问题 
纯 一 致 性 不 支持 对 不 同 地 址 的 访 存 操作 顺序 进行 组 合 ， 换 名 话说 ， 假 定 有 两 个 变量 的 访问 ， 
并 且 每 个 变量 的 访问 过 程 单独 看 起 来 都 是 满足 一 致 性 的 ， 但 是 ， 在 两 个 变量 访问 之 间 所 引入 的 其 
他 任何 顺序 性 都 可 能 会 导致 整个 执行 过 程 不 可 定 序 。 而 要 证 明 一 个 执行 过 程 不 可 定 序 比 证 明 其 可 
定 序 要 复杂 得 多 ， 比 如 ， 大 多 数 的 形式 化 验证 方法 也 都 假定 所 有 的 访 存 操作 存在 一 个 一 致 性 序 。 
纯 一 致 性 序 和 其 他 序 的 冲突 ”考虑 以 下 包含 两 个 地 址 A 和 B 的 执行 过 程 : 
INIT A=0;B=0; 
1 正之 
Si (R)1I S2z (B)1 


LAB) L2 (B) 工 
LL(B)0 L? (A)O 
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根据 纯 一 致 性 的 形式 模型 ， 上 述 执行 对 于 A 或 者 B 的 访问 单独 来 看 都 满足 纯 一 致 性 ， 因 此 是 正确 
的 。 然 而 ， 当 存在 下 列 情况 时 ， 纯 一 致 性 序 会 和 每 个 线程 强加 在 这 两 个 load 上 的 其 他 序 产生 冲突 。 
。 情况 1: 存储 模型 中 可 能 会 存在 一 个 常见 的 限制 ， 那 就 是 在 相同 线程 中 的 两 个 load 操 
作 上 强制 建立 一 个 全 局 序 ， 即 使 它们 的 访 存 地 址 不 相同 。 
。 情况 2: 第 二 个 load 操作 依赖 于 第 一 个 load 操作 ， 比 如 第 三 个 load 操作 的 地 址 计算 可 
能 需要 第 一 个 load 返回 的 值 。 此 时 在 第 一 个 load 操作 返回 值 之 前 (线程 内 的 数据 依 
赖 )， 第 二 个 load 操作 甚至 都 不 能 开始 执行 或 者 是 预 取 。 
。 情况 3: 程序 员 可 能 在 两 个 线程 中 的 两 个 load 操作 之 间 插 入 一 个 barrier 同步 ， 因 此 在 
每 个 线程 的 两 个 load 操作 之 间 都 强制 添加 了 一 个 时 间 序 。 
在 上 面 的 三 种 情况 中 ,线程 中 的 两 个 load 操作 会 被 强制 串 行 顺序 执行 ， 然 而 这 个 顺序 会 和 
一 致 性 序 产生 冲突 ， 导致 整个 执行 过 程 无 法 进行 全 局 定 序 。 在 上 面 的 代码 中 ， 满 足 一 致 性 的 机 
器 会 针对 所 有 地 址 的 访问 在 线程 中 维护 一 个 线程 序 。 在 TL 中 ，load A 操作 必须 在 store A 操作 
之 后 (由 于 一 致 性 ) ， 由 于 其 他 顺序 性 的 约束 ，load B 操作 必须 在 load A 操作 之 后 。 由 于 A 的 
一 致 性 序 要 求 ，T2 中 load A 操作 必须 早 于 Tl 中 store A 操作 。 因 此 当 所 有 的 顺序 性 都 满足 的 时 
候 ，T1 中 load B 操作 是 不 可 能 返回 0 的 。 
在 支持 store 原子 性 的 系统 中 ， 上 面 例子 中 的 执行 过 程 也 不 可 能 出 现 ， 因 为 store 原子 性 能 
够 实时 地 对 相同 地 址 的 访问 进行 定 序 , 在 Tl 执行 A 和 B 的 load 操作 之 前 ,，T1 的 store A 操作 
的 结果 必须 已 经 传播 到 所 有 的 副本 中 了 (包括 T2 中 的 cache) 。 4 
同时 满足 纯 一 致 性 和 store 原子 性 的 执行 下面 的 执行 过 程 是 否 满足 纯 一 致 性 ? 是 
否 满足 store 原子 性 ? 
INIT A=0;B=0; 
TT EY 
S1(A)1 S2 (B)1 
DLL+(B) 0 L2 (A)O 
首先 ， 这 个 执行 过 程 肯定 是 满足 纯 一 致 性 的 ， 因 为 对 每 个 地 址 只 有 两 次 访问 操作 ， 并 且 是 在 不 
同 的 线程 。 此 外 ， 它 也 满足 store 原子 性 。 通 过 定义 7.4 中 store 原子 性 的 充分 条 件 可 知 ， 即 使 
store 操作 没有 全 局 完成 ， 后 续 执 行 也 可 以 继续 推进 ， 但 是 load 操作 必须 等 到 它 对 应 的 值 全 局 
完成 后 才能 继续 。 这 个 例子 中 ,线程 对 两 个 不 同 地 址 的 store 操作 可 以 在 存储 系统 中 同时 并 发 
传播 ， 相 互 交错 ， 在 对 方 线程 的 load 操作 全 局 完成 之 后 ， 再 到 达 其 cache 中 。 (注意 这 两 个 
store 操作 是 针对 不 同 地 址 的 。) 
即使 在 两 个 线程 的 store 和 load 操作 之 间 加 入 一 个 barrier (要 想 获 得 确定 的 结果 ， 这 是 一 
个 必要 的 步骤 ) ， 结果 仍然 是 满足 纯 一 致 性 和 store 原子 性 的 ， 但 是 这 个 结果 是 不 正确 的 : i 


INIT A=0;B=0; 


TL J 

si (A)1 S2(B) 工 
BARRIER (bar1) BARRIER (bar1) 
LL(B) 0 L2 (R) 0 


store 原子 性 这 一 属性 所 针对 的 是 单个 内 存 地 址 ， 它 对 其 他 地 址 的 访问 没有 约定 ， 哪 怕 是 barrier 
操作 。 因 此 ， 除 了 store 原子 性 ， 还 需要 其 他 的 一 些 机 制 来 避免 出 现 上 述 的 错误 执行 结果 。 换 
名 话说 ,硬件 必须 能 够 识别 出 此 类 barrier 操作 ;并且 提 供 一 种 机 制 ; 确保 在 ;barrier 执行 之 前 ， 
所 有 的 store 操作 都 已 经 全 局 完成 了 (如 图 7-16 和 图 7-17 中 发 送 给 线程 Tl 的 store' 操 作 GP 
信号 )。 局 
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7. 3. 5 store 原子 性 和 访 存 交错 


纯 一 致 性 的 形式 化 模型 所 引入 的 执行 顺序 有 时 候 和 线程 间 访 存 依赖 所 引入 的 其 他 实时 限制 
会 产生 冲突 ， 这 一 点 我 们 在 上 面 的 例 7.7 中 已 经 看 到 了 。 

图 7-21 所 示 的 模型 考虑 了 所 有 地 址 的 访问 操作 ,: 每 一 个 地 址 分 配 了 一 个 独立 的 内 存 。 线 
程 可 以 按 任何 顺序 发 出 内 存 访问 ， 只 要 不 违反 线程 内 的 依赖 关系 ,并 且 和 访问 其 他 地 址 时 可 能 
引入 的 顺序 性 要 求 一 致 即 可 。 内 存 逐 个 响应 每 个 访 存 请 求 (load 或 者 stere) ， 因 此 每 个 地 址 的 
访问 都 是 原子 性 的 ， 但 是 每 个 线程 可 能 同时 有 多 个 针对 不 同 地 址 的 未 完成 访 存 请 求 ， 而 内 存 也 
可 以 被 所 有 线程 并 行 访问 。 \ 





图 7-21 store 原子 性 和 访 存 交错 模型 


定义 7.2 ~ 定义 7.4 中 的 条 件 形成 了 一 个 可 以 用 图 7-21 进行 建 模 的 系统 。 在 上 述 条 件 中 ， 
要 求 对 相同 地 址 的 store 操作 顺序 进行 处 理 ， 在 任何 时 刻 ，load 操作 只 能 观察 到 并 返回 一 个 值 。 
这 和 图 7-21 所 示 模 型 中 的 内 存 系统 是 完全 相同 的 : load 操作 实时 观察 到 一 系列 的 store 值 ， 并 
且 同 一 时 刻 只 能 访问 到 一 个 值 ， 具 体 的 访问 顺序 和 访 存 瓶 颈 处 所 决定 的 时 间 序 一 致 。 

图 7-21 中 的 模型 实际 上 是 一 个 交错 访 存 的 系统 ， 系 统 中 所 有 内 存 地 址 都 只 有 单一 副本 。 
在 这 种 存储 系统 中 ， 对 所 有 地 址 的 所 有 store 操作 可 以 构成 一 个 全 局 序 ， 关于 这 点 可 以 简单 说 
明 如 下 : 

。 如 果 两 个 访 存 操作 是 对 同一 地 址 的 ， 或 者 地 址 不 同 但 是 两 个 访 存 不 是 并 发 的 ( 即 在 时 

间 上 没有 重 倒 ) ， 那 么 这 两 个 操作 就 可 以 按照 访 存 的 真实 时 间 进 行 排序 ， 同 时 也 能 保证 
正确 的 执行 结果 。 

。 如 果 对 不 同 地 址 的 两 个 访 存 操作 在 分 别 访问 各 自 内 存 时 存在 并 发 ， 由 于 操作 已 经 在 内 

存 中 了 ， 它 们 不 会 相互 影响 到 对 方 的 地 址 或 者 输入 值 ， 所 以 此 时 访 存 的 所 有 输入 操作 
数 必须 已 经 准备 好 。 因 此 对 不 同 地 址 的 两 个 并 发 访 存 操作 可 以 任意 排序 ( 比如， 可 以 
根据 开始 时 间 排 序 ) ， 其 执行 结果 仍然 是 正确 的 。 

这 种 特性 并 不 奇怪 ， 众 所 周知 ， 交 错 存 储 系统 等 效 于 一 个 单 体 、 集 中 式 的 存储 器 。 和 纯 一 
致 性 相反 ,store 原子 性 是 可 组 合 的 ， 换 句 话说， 我 们 可 以 简单 地 对 每 个 单独 内 存 地 址 构造 一 个 
store 顺序 ， 进 而 为 所 有 内 存 地 址 的 所 有 store 操作 构造 出 一 个 全 局 序 。 因 此 ， 对 所 有 地 址 的 所 
有 访 存 构造 一 个 全 局 序 是 可 行 的 ， 并 且 是 可 扩展 的 ， 因 为 store 原子 性 并 不 需要 针对 所 有 -store ， 
操作 创建 一 个 串 行 瓶颈 点 ， 而 只 需要 单独 考虑 每 个 内 存 地 址 的 ;stores 这 是 一 个 非常 关键 的 
特征 。 


7:4 “顺序 一 致 性 

纯 一 致 性 和 store 原子 性 都 是 存储 系统 中 非常 有 用 的 特征 ,但 是 它们 还 不 足以 保证 执行 过 
程 的 正确 性 ,从 为 针对 不 同 共享 地 址 的 访问 可 能 也 会 相互 影响 ,而 纯 一 致 性 以 及 store 原子 性 
都 只 考虑 对 相同 地 址 访 存 操作 的 顺序 。 
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为 了 进一步 说 明 ， 下 面 给 出 一 些 利用 了 图 7-1 中 共享 内 存 通信 模型 的 代码 。 
e 点 对 点 通信 


INIT: A=FLAG=0 


T1 TR 
A=1 7 while (FLAG==0); 
FLAG=1; Print A; 


在 这 段 代码 中 ， 程 序 员 期 望 Tl 对 A 的 更 新 在 FLAG 更 新 之 前 能 到 达 T2， 这样 12 打印 出 的 
A 的 值 总 是 1。 


。 值 通信 
INIT: A=B=0 
TL 玉 2 
A=1 Print B; 
B=1 Print A; 
在 这 段 代 码 中 ， 如 果 B 的 打印 结果 是 1， 那 么 A 也 同样 应 该 打印 出 1。 
。 Dekker 算法 
INIT A=B=0 
T1 T2 
A=1 ' B=1 
while (B==1); while (A==1); 
<critical section> <critical section> 
A=0 B=0 


在 这 段 代 码 中 ， 线 程 可 能 互 斥 地 执行 临界 区 内 的 代码 ， 也 可 能 是 两 个 线程 同时 执行 while 
语句 从 而 出 现 死 锁 ， 这 两 种 情况 都 是 程序 员 所 人 允许 的 ， 但 是 程序 员 不 希望 看 到 两 个 线程 同时 执 
行 临界 区 内 的 代码 。 刚 刚 在 例 7. 8 中 ， 我 们 看 到 线程 TI 和 T2 中 对 A 和 了 地 址 的 load 操作 都 可 
能 返回 0 (即使 存储 系统 满足 store 原子 性 ) ， 在 这 种 情况 下 ， 两 个 线程 会 同时 进入 临界 区 。 

在 上 面 这 些 代 码 片段 中 ， 程 序 员 直 觉 上 认为 ， 不 同 线程 的 多 个 访 存 指令 的 效果 ,就 像 是 按 
照 线程 序 在 真实 时 间 上 交错 的 原子 执行 一 样 ， 这 种 模型 我 们 称 之 为 顺序 一 致 性 。 从 软件 的 角度 
来 看 ， 这 是 一 个 非常 严格 的 要 求 。 正 如 名 字 所 表明 的 那样 ， 任 意 多 线程 程序 的 执行 过 程 必须 跟 
所 有 指令 在 单个 线程 中 进行 串 行 交 错 执行 的 效果 一 致 。 不 管 针 对 哪 种 多 线程 硬件 环境 ， 这 一 条 
件 都 是 非常 苛刻 的 。 顺 序 一 致 性 是 计算 机 系统 中 最 严格 的 存储 一 致 性 模型 。 之 所 以 说 是 最 严格 
的 模型 ， 是 因为 硬件 已 经 无 法 为 程序 员 提 供 更 多 的 支持 了 。 顺 序 一 致 性 模型 也 是 在 硬件 上 限制 
最 多 的 一 个 存储 模型 ， 由 于 这 个 原因 ， 我 们 也 经 常 称 之 为 “ 强 一 致 性 ”或 “ 强 顺序 性 ”。 


7. 4. 1 顺序 一 臻 性 的 形式 化 模型 


顺序 一 致 性 是 一 种 描述 并 发 硬件 行为 的 模型 ， 来 自 不 同 线程 的 访 存 操作 以 线程 序 的 方式 原 
子 地 交错 执行 。 图 7-22a 给 出 了 顺序 一 致 性 的 形式 化 模型 。 

每 个 线程 执行 的 指令 包括 共享 内 存 访 问 指令 以 及 其 他 指令 ， 而 在 形式 化 模型 中 我 们 只 考虑 
共享 内 存 访 问 指令 ， 形 式 化 模型 的 规则 可 以 总 结 如 下 : 

。 每 个 线程 以 线程 序 逐 一 执行 共享 内 存 访问 操作 。 

。 同一 时 刻 只 能 有 一 个 对 共享 内 存 访 问 的 操作 在 执行 。 

根据 上 述 定义 ， 如 果 系 统 中 的 每 次 执行 都 符合 图 7-22a 中 形式 化 模型 的 合法 执行 ,那么 这 
个 系统 是 顺序 一 致 性 的 。 
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a ) 顺序 一 致 性 的 形式 化 模型 


L2000 ~ S4Y)1 L201 L3(Z)2 Ss3(z)3 L2(X)4 LOY)1 


S1(X)0 L3(X)0 S2(Z)2 L2(X)0 L4(X)0 Ss3(X)4 LI(Z)3 
b ) 顺序 访问 顺序 


图 7-22 顺序 一 致 性 的 形式 化 模型 和 顺序 访问 顺序 


定义 7.6 (顺序 一 致 性 ) -多 处 理 器 满足 顺序 一 致 性 ， 如 果 任 意 一 次 执行 的 结果 都 好 像 是 
所 有 线程 的 访 存 操作 按照 某 种 串 行 的 顺序 执行 ， 并 且 每 个 线程 内 的 执行 过 程 都 符合 线程 序 。 

在 这 个 定义 中 ,“ 任 意 一 次 执行 ” 指 的 是 “任意 程序 的 任意 一 次 执行 ",“ 结 果 ” 指 的 是 所 
有 load 操作 返回 的 值 。 因 此 ， 对 于 每 次 执行 过 程 ， 要 证 明 系 统 满足 顺序 一 致 性 ， 需 要 针对 所 有 
线程 对 所 有 地 址 的 所 有 访问 操作 构建 出 一 个 一 致 的 串 行 序 。 这 个 过 程 和 纯 一 致 性 的 判定 类 似 ， 
区 别 在 于 这 里 需要 为 所 有 内 存 地 址 的 访问 都 构建 一 个 全 局 序 。 

图 7-22b 给 出 了 一 个 假想 程序 执行 过 程 的 访 存 顺序 ， 其 中 每 个 线程 的 访 存 都 符合 线程 序 ， 
并 且 load 操作 总 是 返回 全 局 序 中 最 近 store 的 值 。 因 此 这 个 执行 在 形式 化 模型 看 来 是 一 次 合法 
的 执行 。 要 证 明 这 二 点 /可 以 简单 地 按 顺序 逐个 选中 每 个 内 存 访 问 ， 然 后 将 其 按照 形式 化 模型 
进行 调度 。 由 于 软件 通常 是 感知 不 到 实际 时 间 的 ， 因 此 软件 检测 不 到 它 是 在 一 个 满足 顺序 一 臻 
SO i 

四 违反 顺序 一 致 性 的 情况 "定义 7. 6 为 很 多 村 次 上 的 优 相 为 污 提供 二 计生 虱 . 我 们 
ev 


INIT: A=B=0 


“ET Fy 
A=1 Print B; 
Bz Print A; 


如 果 在 真实 时 间 上 , ‘Tl 中 对 B 的 store 操作 在 对 A 的 store 操作 之 前 全 局 完成 ,那么 这 个 执行 还 
是 顺序 一 致 性 的 吗 ? 

在 顺序 一 致 性 约束 下 ，A 和 B 合法 输出 的 打印 结果 只 能 是 (A，B) =(0, 0)，(1,，0) 和 
(1, 1), 而 (A, B) =(0, 1) 这 个 输出 是 不 可 能 出 现 的， 因为 如 果 T2 没有 观察 到 A =1, 那 、 
么 它 也 不 可 能 观察 到 -B=1。 

再 考虑 下 面 这 样 一 种 实际 的 执行 情况 。- 由 于 某 些 原 因 ， 真实 时 间 里 TI 可 能 在 A=1 之 前 就 
先 全 局 完成 了 B=1。 如果 TI 希望 尽 可 能 快 地 传播 store 值 , 那么 即使 系统 符合 store 原子 性 ， 
上 面 这 种 情况 也 是 可 能 出 现 的 。 比 如 ，store A 在 cache 中 失效 了 ,而 store B 命中 ,那么 TI 的 
cache 可 能 会 先 执行 store B， 然 后 再 执行 store A， 这 样 B 的 新 值 可 能 会 比 A 的 新 值 先 到 达 T2。 

乍 看 起 来 ， 上 面 这 个 执行 过 程 不 可 能 符合 顺序 一 致 性 。 然而 ?如果 假 定 T2 执行 得 比较 慢 ， 
这 两 个 打印 语句 也 在 TI 对 A 和 和 :B 的 更 新 都 已 经 全 局 完成 之 后 才 执行 ， 因 此 T2 的 load 操作 和 
Tl 的 store 操作 之 间 在 真实 时 间 上 没有 重 又 ， 此 时 的 输出 是 (A，B) =(1，1) ， 即 使 TI 的 两 
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个 store 操作 是 乱 序 全 局 完成 的 也 是 这 样 。 这 意味 着 这 个 执行 过 程 仍 然 是 顺序 一 致 性 的 ， 因 为 
它 产 生 了 一 个 满足 顺序 一 致 性 的 结果 。 类 似 地 ， 如 果 了 2 的 两 个 :load 乱 序 执行 ,并且 都 在 TI 的 
两 个 store 操作 之 后 执行 ， 那 么 程序 输出 (A, :B) =(0，0) 这 样 的 结果 也 是 符合 顺序 一 致 性 的 。 

不 幸 的 是 ， 在 真实 系统 中 ， 我 们 很 难 利用 这 种 优化 ， 因 为 TI 必须 先知 道 T2 要 到 很 久 以 后 
才 会 执行 打印 语句 〈 反 之 亦 然 )， 这 样 T1 才能 乱 序 地 全 局 完成 这 两 个 store 操作 。 在 真实 系统 
中 ， 我 们 不 能 假定 线程 之 间 一 定 存在 这 样 一 种 可 靠 的 关系 ， 在 无 法 保证 这 一 点 的 情况 下 ， 上 述 
优化 就 是 不 安全 的 。 < 
“” ”和 之 前 介绍 的 纯 一 致 性 的 情况 类 似 ， 我们 也 需要 一 个 考虑 了 硬件 结构 特征 的 系统 性 方法 ， 
来 为 每 次 执行 过 程 中 的 访 存 操作 构造 一 个 全 局 的 一 致 序 ， 和 之 前 的 区 别 在 于 ， 这 里 的 全 局 序 需 
要 包括 所 有 地 址 的 访 存 操作 。 下 面 给 出 的 是 图 7-3. 所 示 的 五 级 流水 线 结构 满足 顺序 一 致 性 的 充 
分 条 件 。 

定义 7.7 (顺序 一 致 性 的 充分 条 件 ) 

e 对 相同 地 址 的 store 操作 存在 一 个 全 局 序 。 

e 只 有 当 之 前 的 所 有 访 存 操作 (load 和 store) 都 已 经 全 局 完成 时 ,线程 才 可 以 发 射 新 的 

访 存 操作 。 

这 组 条 件 自动 保证 了 store 原子 性 ， 但 是 远 比 store 原子 性 更 严格 。 第 三 个 条 件 强 制 处 理 器 
在 执行 任何 地 址 的 访 存 之 前 必须 等 待 前 面 的 访 存 操作 完成 ， 而 store 原子 性 的 充分 条 件 只 要 求 
load 操作 需 等 待 相同 地 址 的 store 操作 完成 ，store 操作 无 需 等 待 。 不 过 ， 上 述 这 组 条 件 更 可 行 ， 
也 更 可 扩展 ， 因 为 它 依赖 的 是 针对 每 个 地 址 和 每 个 处 理 器 的 独立 机 制 。 

由 于 访 存 是 以 线程 序 发 射 到 内 存 中 的 ， 并 且 同 一 时 刻 只 有 一 个 访 存 全 局 完成 ， 因 此 满足 定 
义 7.7 的 任意 执行 过 程 都 是 图 7-22 所 示 形 式 化 模型 中 的 有 效 执行 。 在 图 7-3 的 流水 线 中 ， 这 一 
条 件 意味 着 store 操作 可 以 插入 到 store 缓冲 中 等 待 cache 访问 ， 而 load 操作 必须 等 待 直到 store 
缓冲 中 之 前 所 有 的 store 操作 都 已 经 全 局 完成 才能 继续 执行 6 load 也 必须 全 局 完成 才能 返回 值 ， 
store 则 必须 按照 先进 先 出 的 顺序 从 store 缓冲 中 逐个 全 局 完成 。 姓 良 置疑 ， 这 一 限制 使 得 store 
缓冲 几乎 没有 什么 实际 效果 ， 因 为 实际 程序 中 在 load 和 store 之 间 通 常 只 有 很 少 的 其 他 指令 。 


7. 4.2 顺序 一 致 性 的 访 存 顺序 规则 

通常 情况 下 ， 我 们 很 难 准确 判断 某 次 执行 是 否 满足 顺序 一 致 性 ， 但 是 借助 一 些 可 以 在 执行 
流 图 上 进行 验证 的 简单 规则 ， 计 算 机 可 以 做 到 这 一 点 。 顺 序 一 致 性 (s. c. ) 要 求 首先 保证 线程 
序 (t.o. ) ， 此 外 ，load 相关 的 store 操作 必须 先 于 load 操作 完成 ， 我 们 概括 为 如 下 两 个 规则 

OP'(A) 号 Op'(B) 一 OpI(A) SS Op'(B) 

Val[S’ (A)]: Val[Li(A)] = Si(A) SS Li(A) 
Op 指 的 是 load 或 者 'store 操 作 ; 一 > 代表 “ 先 于 ”; Val 是 0p 的 值 ,，“ :” 表 示 store 操作 的 值 是 
load 操作 的 源 。 

此 外 ， 还 需要 用 到 两 个 针对 相同 地 址 :load= 和 和 store 操作 的 隐 含 规则 ， 以 确保 顺序 一 致 性 : 


(Val[Si(A)]: Val[Li(A)]).and:(S*(A) SS Li(A)) = S*(A) SS Si(A) 
(Val[lS'(A)]: ValfL/i(A)]).and.(Si(A) 从 St(A)) = Li(A) > S*(A) 
这 两 个 隐 含 规则 表明 ， 如 果 store 操作 和 后 续 load 操作 有 相关 ， 那 么 在 这 个 stére 和 ,load 操作 之 


间 ， 不 允许 插入 其 他 针对 同一 地 址 的 store 操作 。 
基于 测试 程序 可 以 创建 一 个 执行 流 图 ;通过 有 向 边 来 表示 相应 的 规则 如果 最 后 图 中 存在 
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环 ， 那 么 该 执行 过 程 就 无 法 按照 顺序 一 致 性 进行 定 序 。 

(加 证 明 下 述 执行 过 程 不 满足 顺序 一 致 性 “顺序 一 致 性 无 法 真正 利用 store 缓冲 的 优 
势 ， 因 为 在 store 缓冲 中 ，load 操作 允许 先 于 之 前 的 store 操作 执行 ， 这 使 我 们 无 法 为 所 有 访 存 
操作 构建 一 个 全 局 的 一 致 序 ， 从 而 无 法 满足 形式 化 模型 的 要 求 。 为 了 说 明 这 一 点 ， 考 虑 如 下 的 
执行 过 程 (这 是 Dekker 算法 的 一 部 分 ) ， 证 明了 其 不 满足 顺序 一 致 性 : 


INIT: A=B=0 


下 1 又 
SL (A)1 S2 (B)1 
Li(B)O LIL? (A)O \ 
为 了 证 明 上 述 执行 不 满足 顺序 一 致 初始 什 。 i 
性 ， 我们 构建 了 图 7-23 所 示 的 执行 流 > es 
图 ， 并 根据 顺序 一 致 性 的 规则 加 入 了 操 SiN St 了 
作 之 间 的 顺序 。 最 终 的 执行 流 图 中 包含 | "Ee da 隐 含 的 规则 
了 环 ， 这 违反 了 所 有 内 存 访 问 必须 存在 LIB)0 ~ aa Pa L2(A)0 


一 个 全 局 一 致 序 的 要 求 ， 因 此 ， 即 使 这 
个 执行 过 程 满足 ( 纯 ) 一 致 性 ， 并 且 对 ee 
A 和 B 的 访问 也 符合 store 原子 性 ， 但 它 仍然 不 满足 顺序 一 致 性。 < 


7.4.3 入 站 消息 管理 


在 这 一 节 ， 我们 详细 探讨 顺序 一 致 性 系统 中 的 cache 层次 和 互 连 之 间 的 访问 缓冲 优化 机 
会 。 我 们 不 考虑 本 地 目录 控制 器 所 接受 和 发 送 的 消息 ， 而 是 专注 于 本 地 cache 层次 所 接受 和 发 
送 的 请 求 /应 答 。 目 录 控 制 器 接收 和 发 送 的 流量 使 用 的 是 不 同 的 数据 通路 。 

图 7:24 给 出 了 一 个 支持 深层 存储 结构 和 无 锁 cache 的 系统 简化 架构 模型 ， 我 们 借助 于 出 站 
和 入 站 缓冲 区 来 抽象 复杂 的 cache 层次 延迟 。 注 意 在 处 理 器 核 和 cache 之 间 的 store 缓冲 不 是 
图 7-24 所 示 出 站 缓冲 区 的 一 部 分 ， 并且 下 面 的 讨论 也 不 会 受 store 缓冲 的 影响 ， 因 为 我 们 假定 
store 缓冲 符合 顺序 一 致 性 规则 。 





入 站 缓冲 区 


( 远程 请 求 和 应 答 ) 






oad 


出 站 缓冲 区 
( 本 地 请 求 和 应 答 ) 


原子 性 cache 协 议 转换 


图 7-24 支持 人 站 /出 站 缓冲 区 的 硬件 模型 


在 支持 多 级 无 锁 cache 、 核 内 多 线程 以 及 多 核 结 构 的 系统 中 ， 可 能 同时 有 大 量 从 本 地 节点 
发 出 的 请 求 正在 处 理 ， 这 些 请 求 将 和 针对 输入 请 求 产生 的 本 地 响应 消息 交错 进入 出 站 缓冲 区 ， 
响应 也 包括 从 本 地 脏 副 本 中 替换 写 回 的 数据 ， 出 站 请 求 在 MSI- 无 效 协 议 时 指 的 是 BusRd 和 
BusRdX， 在 MSI- 更 新 协议 时 指 的 是 BusRd 和 BusUpdate。 出 站 请 求 的 完成 由 本 地 cache 控制 器 
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来 控制 ，cache 控制 器 收 到 块 副本 和 应 答 信 号 时 ， 就 发 出 请 求 完成 的 信号 。 在 顺序 一 致 性 下 ， 
同一 时 刻 每 个 线程 只 能 有 一 个 这 样 的 出 站 访 存 请 求 (BusRd，BusRdX， 或 者 BusUpdate) 挂 起 ， 
因为 所 有 的 访 存 操 作 是 逐个 全 局 完成 的 。 然 而 ， 由 于 处 理 器 上 可 能 有 多 个 线程 在 执行 ， 因 此 ， 
出 站 请 求 数 量 可 能 和 线程 数 一 样 多 。 当 然 ， 不 同 线程 的 请 求 必须 在 所 有 缓冲 区 中 都 被 隔离 开 ， 
也 包括 处 理 器 核 与 cache 之 间 的 store 缓冲 。 

和 人 站 消息 〈 来 自 远程 处 理 器 节点 的 请 求 和 应 答 ) 同样 也 需要 缓存 ， 并 且 处 理 器 节点 的 人 

站 缓冲 区 可 能 包含 被 不 同 远程 节点 请 求 所 触发 的 多 个 消息 。 由 于 cache 的 复杂 层次 以 及 不 同 层 
次 之 间 的 各 种 缓冲 区 的 存在 ， 不 同 处 理 器 Ll cache 接收 到 人 站 消息 的 延迟 也 各 不 相同 。 这 些 人 
站 消息 的 处 理 可 以 在 不 影响 store 原子 性 和 顺序 一 致 性 的 前 提 下 进行 优化 ,目标 是 减少 向 目录 
或 总 线 进行 人 站 消息 应 答 所 需要 的 时 间 。 
”参考 图 7-24， 理论 上 在 最 坏 情 况 下 ， 和 人 站 消息 (在 清空 、 无 效 或 者 更 新 时 ) 必须 遍历 节 
点 的 整个 cache 层次 (经 过 所 有 入 站 缓冲 区 )， 而 消息 的 应 答 在 发 送 到 主 节点 之 前 ， 也 必须 经 
过 所 有 的 出 站 缓冲 区 。 如 果 我 们 能 够 不 通过 入 站 缓冲 区 和 出 站 缓冲 区 就 完成 消息 的 应 答 确认 ， 
那么 store 和 load 操作 就 可 以 更 快 全 局 完成 。 

幸运 的 是 ， 如 果 入 站 缓冲 区 管理 得 当 ， 那 么 许多 入 站 请 求 都 可 以 在 接收 到 的 时 候 就 进行 应 
答 确 认 ， 而 无 需 等 待 来 自 本 地 层级 cache 的 响应 。 消 息 到 达 (和 应 答 ) 某 个 节点 和 它 对 线程 执 
行 产生 影响 之 间 的 延迟 不 会 影响 store 原子 性 和 顺序 一 臻 性。 下面 以 CC:NUMA 系统 为 例 ， 说 明 
在 基于 目录 的 MSI- 无 效 协 议和 MSI- 更 新 协议 下 是 如 何 做 到 这 一 点 的 。 

MSI- 无 效 协议 

我 们 采用 如 示 图 7-11 和 图 7-16 所 示 的 目录 协议 , 为 了 简化 说 明基 本 原理 ,假设 目录 控制 
器 在 3 时 刻 安 全 地 将 块 副本 传送 给 请 求 者 〈T0O) ， 并 且 该 块 副本 在 委 时 刻 被 接收 。 因 而 对 外 
部 存储 器 的 访问 满足 原子 性 ， 并 且 所 有 的 store 都 全 局 有 序 。 这 里 的 问题 在 于 ， 像 TI1 和 T2 这 
样 的 线程 需要 对 无 效 请 求 进行 应 答 ， 而 根据 定义 7.3 和 7.7， 在 本 地 处 理 器 无 法 返回 旧 值 之 后 ， 
无 效 请 求 才能 被 应 答 。 下 面 将 说 明 ， 其 实 无 效 请 求 是 可 以 更 快 应 答 的 一 一 只 要 它们 达到 该 节点 
就 可 以 应 答 。 下 面 先 描述 应 该 怎么 做 ， 然 后 再 给 出 相应 的 证 明 。 

在 MSI 无 效 协议 中 ， 可 能 会 对 本 地 节 点 产生 影响 的 人 站 请 求 主要 是 无 效 请 求 或 清空 请 求 ， 
而 输入 的 应 答 消息 是 主 节点 转发 到 本 地 节点 的 数据 块 。 当 本 地 cache 中 有 Shared (共享 ) 或 者 
Modified (修改 ) 状态 的 副本 时 ， 需 要 对 输入 请 求 作出 反应 。 而 当 本 地 cache 状态 是 Invalid 
(无 效 ) 时 ， 则 直接 丢弃 输入 请 求 。 

当 本 地 块 副本 处 于 Shared 状态 时 ， 只 能 接收 无 效 请 求 。 无 效 请 求 一 旦 到 达 本 地 节点 的 入 站 
缓冲 区 就 可 以 进行 应 答 ， 无 效 请 求 一 旦 在 入 站 缓冲 区 中 被 接收 ，store 操作 就 可 以 看 成 是 相对 本 
地 节点 已 经 完成 的 。 入 站 的 无 效 请 求 可 能 被 本 地 处 理 器 核 延 后 很 长 时 间 处 理 ， 当 无 效 请 求 被 应 
答 确 认 时 ,会 同时 将 目录 中 对 应 该 节点 的 存在 位 清 零 ， 因 此 在 目录 看 来 ,该 节点 上 的 副本 无 法 
再 访问 到 。 而 如 果 cache 接收 到 某 个 Shared 状态 块 的 无 效 请 求 而 不 处 理 , 那么 访问 这 个 块 时 ， 
该 cache 实际 上 就 相当 于 和 剩余 系统 “隔离 ” 开 了 。 一旦 隔离 开 ， 本 地 cache 也 就 无 法 获悉 系 
统 中 对 该 块 的 其 他 一 致 性 事务 处 理 请 求 了 6 

如 果 本 地 副本 是 :Modified 状态 ,那么 当 输 入 的 清空 请 求 到 达 tache 层级 的 入 站 缓冲 区 时 ， 
不 能 直接 进行 应 答 确 认 ， 从 本 地 cache 层级 中 仍然 可 以 获取 到 对 应 的 块 副本 , ' 同 时 需 先 处 理 在 
该 清空 请 求 之 前 的 所 有 入 站 消息 。 清 空 请 求 可 能 会 在 本 地 节点 中 延迟 很 长 时 间 人 处 理 ， 这 并 不 是 
一 个 好 的 解决 办 法 ， 因 为 远程 的 清空 请 求 者 一 直 在 等 待 该 块 副本 关闭 该 事务 处 理 。 

当 本 地 线程 需要 发 起 协议 请 求 处 理 时 (例如 ， 需 要 发 送 BusRd 或 者 BusRdX 请 求 ) ， 与 该 
线程 相关 的 之 前 所 有 人 站 消息 都 必须 先 在 cache 中 生效 。 "因为 在 MSI- 无 效 协 议 中 ,每 个 出 站 请 
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求 (BusRd 或 BusRdX) 都 被 视 为 cache 失效 并 将 返回 一 个 块 副 本 ,在 失效 事务 处 理 对 本 地 线程 
全 局 完成 之 前 ， 有 是 够 的 时 间 等 待 数据 块 返回 消息 ， 并 将 数据 块 返回 消息 之 前 的 所 有 入 站 请 求 
在 cache 中 生效 。 

上 述 优化 背后 的 基本 原理 是 ， 共 享 内 存 程序 的 写 操作 必须 和 硬件 延迟 无 关 。 因 此 ， 当 本 地 
处 理 器 核 收 到 无 效 请 求 或 清空 请 求 时 ， 不 需要 和 当前 正在 执行 的 操作 进行 同步 ， 事实 上 ， 本 地 
处 理 器 核 原本 也 可 能 运行 得 更 快 ， 如 果 这 样 那么 无 效 请 求 或 刷新 请 求 就 可 能 在 本 次 执行 的 晚 些 
时 候 才 能 到 达 该 节点 。 只 要 本 地 节点 还 可 以 使 用 自己 的 本 地 值 (任何 一 级 cache 中 的 都 行 ) 继 
续 执 行 ， 并 且 入 站 缓冲 区 没有 发 生 溢出 ， 那 么 当前 执行 就 可 以 一 直 继 续 下 去 。 一 旦 本 地 节点 往 
外 发 送 BusRd 或 BusRdX， 就 将 与 系统 的 其 余部 分 进行 同步 。 此 时 ， 必 须 处 理 完 cache 层次 中 的 
所 有 入 站 请 求 。 

MSI- 更 新 协议 

对 于 MSI- 更 新 协议 ， 尽 管 原理 是 一 样 的 ,但 是 这 种 情况 更 为 复杂 。 这 是 因为 如 果 要 保 
持 store 原子 性 ， 那 么 在 目录 向 其 他 副本 (包括 请 求 者 ) 发 送 'store -GP 信号 进行 应 答 确 认 之 
前 ,更 新 信号 必须 先 发 出 ， 应 答 确认 ， 并且 在 本 地 cache 中 锁定 。 图 7-17 给 出 了 这 一 过 程 ， 
入 站 请 求 包 括 清 空 命令 、 更 新 命令 或 store_GP， 而 入 站 应 答 是 主 节点 在 发 生 失效 时 前 递 的 块 
副本 =。 

当 本 地 副本 处 于 Shard 状态 时 ， 人 站 更 新 操作 一 有 旦 到达 处 理 器 节点 就 会 被 应 答 确 认 。 更 新 
消息 会 修改 该 cache 块 并 将 其 锁定 ， 之 后 收 到 store_GP 消息 时 再 进行 解锁 ， 恢 复 成 可 访问 状态 。 
当 收 到 上 述 输 入 请 求 时 ， 可 能 会 延迟 较 长 时 间 后 再 进行 处 理 。 

当 本 地 节点 处 于 Modified 状态 时 ， 必 须 对 清空 请 求 进行 响应 。 但 是 它们 不 是 在 收 到 请 求 时 
就 立即 确认 ,而 是 当 请 求 到 达 具 有 效 副本 的 本 地 cache 时 ;通过 清空 该 块 副 本 的 方式 进行 确 
认 。“ 这 一 处 理 过 程 同样 可 能 被 延迟 ,但 是 请 求 者 会 一 直 等 待 该 副本 。 在 这 个 处 理 过程 中 ， 所 有 
先前 的 入 站 消息 要 在 cache 中 已 经 生效 。 

当 本 地 节点 需要 发 起 协议 请 求 处 理 时 ( Update 或 BusRd)， 在 该 事务 全 局 完成 之 前 ， 所 有 
的 输入 消息 都 必须 先 被 处 理 。 以 更 新 请 求 为 例 ， 发 出 更 新 请 求 的 cache 会 从 主 节 点 接收 到 自己 
的 store_GP 信和 号， 然后 对 cache 进行 解锁 ， 再 关闭 该 事务 ( 见 图 7=17) 。 当 cachs 接收 到 自己 的 
store_GP 信号 时 ， 它 必须 在 对 应 事务 全 局 完成 之 前 将 其 处 理 ， 此 外 ， 在 这 之 前 的 所 有 入 站 缓冲 
区 中 的 消息 也 都 需要 处 理 完 。 

支持 懒惰 无 效 的 Dekker 算法 ”下面 我 们 一 步 步 详细 展示 Dekker 算法 。 

为 了 说 明 新 的 规则 如 何 应 用 于 入 站 消息 , 我们 还 是 用 下 面 这 段 相同 的 代码 片段 来 回顾 一 下 


Dekker 算法 : 
E i 
A=1 了 = 了 
R1=B R2=A 


对 应 的 操作 步骤 展示 在 图 7-25 中 3 

Tl 运行 在 Pl1 上 ，T2 运行 在 P2 上 。 如 图 7-25a 所 示 ; 初始 时 ， 两 个 cache 都 有 包含 数据 块 
A 和 B 的 共享 副本 ; 并且 人 入 站 缓冲 区 是 空 的 5 Pl 执行 store A 时， 先 发 出 BusRdX 消息 。 首 先 ， 
会 有 一 个 无 效 请 求 发 送 给 P2, P2 一 旦 收 到 该 无 效 请 求 就 立即 向 主 节点 进行 确认 ， 以 便 主 节 点 
可 以 将 对 应 的 数据 块 发 送 给 P1; 该 数据 块 由 内 存 返 回 到 PI 的 入 站 缓冲 区 中 ， 而 B2 的 人 站 组 
冲 区 中 则 会 插入 一 个 无 效 请 求 。 这 时 ，A =1 这 个 操作 相对 于 了 2 来 讲 已 经 完成 了 (即使 此 时 对 
应 的 无 效 请 求 还 没有 达到 ,P2 的 cache, 并 且 P2 还 能 读 到 A 的 旧 值 ), 但 是 还 没有 全 局 完成 ， 
为 输 大 的 数据 块 副本 还 没有 拷贝 到 Pl 的 cache 中 (图 7-25b)。 
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P1 发 出 BusRdX 消 息 以 
初始 状态 执行 A=1 操 作 
( T1 还 没有 发 射 A=1 ) A=1 操 作 相对 P2 完 成 





P2 发 出 BusRdX 消 息 B=1 操 作 全 局 完成 ， 并 且 
以 执行 B=1 操 作 P1 完 成 对 B 的 load 在 这 过 程 中 ，P2 中 的 A 被 
B=1 操 作 相对 P1 完 成 操作 并 且 返 回 0 
















| Inv(A) | 
| | |block(B 
| 


P1 无 效 掉 数 据 块 B 的 副本 ， 
并 且 将 A 的 副本 前 递 给 P2 


7-25 ”Dekker 算法 中 的 cache 懒惰 无 效 


在 图 7-25c 中 ,输入 块 已 达到 达 P1 的 cache 中 ， 并且 P1 可 以 安全 地 修改 A 的 副本 。 此 时 
A =1 就 可 以 认为 是 全 局 完成 了 (尽管 P2 的 cache 还 没有 被 无 效 掉 ， 它 还 能 读 到 旧 的 副本 )， 
Pl 可 以 发 射 对 B 的 load 操作 。 不 过 在 这 之 前 ，P2 在 执行 B=1 操作 时 发 出 了 一 个 BusRdX 请 
求 ， 这 导致 一 个 无 效 请 求 发 送 给 PL ,缓存 在 Pl 的 人 站 缓冲 区 中 ， 并 且 立 即 向 主 节点 进行 了 确 
认 。 然 后 主 节点 将 数据 块 返回 并 存 人 P2 的 人 站 缓冲 区 中 (图 7-25d)。 此 时 ,B=1 操作 相对 
Pl 已 经 完成 ;但 是 仍然 不 是 全 局 完成 ， 因 为 该 数据 块 还 没有 到 达 P2 的 cache 中 ,因此 P2 还 无 
法 执行 后 面 的 load。 

然后 Pl 执行 对 也 的 load 操作 ， 并 返回 0 (仍然 忽略 掉 和 站 缓冲 区 中 的 无 效 请 求 )( 图 7-25e)。 
最 后 ， 为 了 继续 处 理 load 操作 ，P2 将 返回 的 数据 块 写 入 cache 中 ， 以 状态 M 结束 B=1 这 一 处 
理 过 程 。 在 这 一 过 程 中 ， 对 含有 A 的 数据 块 的 无 效 请 求 必须 在 cache 中 生效 ， 然 后 P2 将 cache 
中 也 的 值 更 新 为 1 (图 7-25f) 。 此 时 ，P1 可 以 读 到 B =0，P1 的 执行 就 结束 了 。 而 P2 还 有 load 
A 操作 ， 并 且 在 cache 中 失效 了 。 因 此 P2 发 出 BusRd,， 了 1 会 接 到 一 个 清空 A 的 入 站 请 求 ， 然 
后 P2 等 待 A 的 副本 返回 (图 7-25g)。 最 终 ，P1 决定 对 清空 A 请 求 作 出 响应 ， 响 应 过 程 中 在 
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cache 处 理 了 无 效 B 的 请 求 。 然 后 ， 包 含 A 的 数据 块 前 递 到 了 P2 (图 7-25h)。 要 完成 该 load 访 
问 ，P2 需要 最 终 将 入 站 缓冲 区 中 包含 A 的 数据 块 写 人 cache, 设置 成 Shared 状态 。 此 时 P2 就 
可 以 读 到 A=1 了 (图 7-25i)。 最 后 ，P1 进入 临界 区 ，P2 被 锁 在 临界 区 外 ， 这 样 我 们 就 得 到 
一 个 合法 的 顺序 一 致 性 结果 。 括 

更 快 地 完成 store 

为 了 利用 顺序 一 致 性 上 下 文中 与 入 站 请 求 相关 的 优化 ， 我 们 需要 稍微 修改 一 下 7.3.3 
节 定 义 7.3 中 关于 “store 完成 ”的 定义 。 假 设 处 理 器 核 中 有 针对 人 站 请 求 的 合理 管理 机 
制 (如 上 面 所 描述 的 那样 ); 那么 当 线 程 所 在 的 处 理 器 核 已 经 被 通知 到 时 ， 就 可 以 认为 
store 操作 相对 于 该 线程 已 经 完成 。 这 里 所 谓 的 处 理 器 较 被 通知 到 ， 指 的 是 当 它 在 人 站 组 
冲 区 中 收 到 一 个 请 求 ， 并 且 可 以 按照 上 面 介绍 的 方式 安全 地 处 理 该 请 求 的 时 候 。 这 有 助 
于 提高 store 操作 的 性 能 ， 因 为 相 比 定 义 7.3 可 以 更 快 地 进行 确认 。 当 本 地 块 处 于 Shared 
状态 时 ， 远 程 store 不 需要 等 到 其 发 起 的 无 效 请 求 或 者 更 新 请 求 到 达 目 标 处 理 器 核 cache 层 
次 中 的 所 有 副本 ， 相 反 ， 只 要 通知 已 经 在 总 线 接口 上 接收 到 ， 我 们 就 认为 store 操作 已 经 
完成 。 当 本 地 块 处 于 Modified 状态 时 ， 通 知 操作 需要 等 待 直到 请 求 已 经 达到 了 修改 的 副本 
并 且 该 数据 已 经 被 清空 后 。 

定义 7.8 ( 访 存 完成 (更 快 的 版 本 ) ) 

e 当 线 程 半 所 在 的 处 理 器 节点 已 经 被 store 通知 到 (invalidation 或 者 update) 时 ， 称 该 

store 操作 相对 于 线程 已 经 完成 。 

e 当 store 相对 于 所 有 线程 都 已 经 完成 时 ， 称 该 store 全 局 完成 。 

e 当 ]load 的 值 被 锁定 并 且 不 能 被 撤销 时 ， 称 该 load 已 经 完成 。 

e 当 load 操作 已 经 完成 ， 并 且 产 生 ]load 结果 值 的 store 操作 也 已 经 全 局 完成 时 ， 称 load 操 

作 全 局 完成 。 

基于 上 述 新 的 定义 ， 在 定义 7.4 和 7.7 中 关于 store 原子 性 和 顺序 一 PA 
然 成 立 ， 并 且 可 以 利用 其 对 入 站 消息 处 理 进行 优化 。 

值得 注意 的 是 ;定义 7.8 违反 了 store 原子 性 的 原始 定义 (定义 7.2 2) ， 因 为 store 全 局 完成 
时 ,仍然 可 能 有 一 些 处 理 器 还 能 读 到 旧 值 (多 个 有 效 的 旧 值 可 能 位 于 不 同 的 处 理 器 cache 中 )， 
这 意味 着 在 理论 上 已 经 暴露 了 store 的 非 原子 性 。 不 过 ， 只 要 cache 已 经 被 通知 到 并 且 在 每 个 节 
点 内 部 小 心 处 理 ， 那 么 软件 就 无 法 检测 到 对 原子 性 的 违背 。 

图 7-25c 中 可 以 清晰 地 看 到 对 于 store 原子 性 基本 定义 的 违背 ,根据 定义 7.8， 在 Pl 中 的 
A =1 这 个 store 操作 全 局 完成 时 ， 同 时 存在 A 的 两 个 不 同 副本 ， 并 且 P2 的 load 还 可 以 返回 
A=0。 根 据 新 的 充分 条 件 的 定义 ，P1 和 P2 cache 中 的 A 的 值 都 是 CP 并 且 可 访问 的 ， 但 它们 的 
值 却 是 不 同 的 。 然 而 ， 根 据 新 的 充分 条 件 定义 ， 这 个 执行 是 满足 顺序 一 致 性 的 ， 即 使 P2 执行 
load A 操作 仍然 返回 0， 这 个 执行 过 程 也 还 是 满足 顺序 一 致 性 的 。 

基于 运行 时 间 的 不 可 预测 性 ， 我们 可 以 获得 很 多 优化 机 会 ， 每 个 节点 中 入 站 消息 可 能 的 重 
排序 就 是 一 个 例子 。 比 如 ， 在 MSI- 无 效 协 议 中 ， 连 续 的 多 个 人 站 消息 可 能 会 被 乱 序 处 理 , 但 
这 并 不 违反 顺序 一 致 性 ， 因 为 要 想 观 测 到 无 效 数据 就 需要 发 起 一 次 失效 请 求 ， 而 这 将 导致 入 站 
缓冲 区 中 的 所 有 消息 都 被 处 理 。 这 些 优 化 策略 很 有 价值 ， 但 是 仔细 介绍 则 需要 很 大 篇 幅 ， 完 全 
可 以 重新 写 一 本 书 了 ， 因 此 ， 在 本 书 中 ,我 们 将 不 做 具体 讨论 。 


7.4.4 ”store 同步 性 


store 同步 性 是 从 另 一 个 角度 来 观察 时 序 对 于 store 原子 性 和 顺序 一 致 性 的 影响 ，store 同步 
性 定义 如 下 : 
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定义 7.9 (store 同步 性 ) 如 果 对 所 有 地 址 的 所 有 store 操作 都 存在 一 个 全 局 序 ， 并 且 任 
意 两 个 线程 观察 到 的 store 顺序 都 是 相同 的 ， 那 么 称 该 存储 系统 满足 store 同步 性 。 

满足 store 同步 性 的 存储 系统 和 满足 store 原子 性 的 存储 系统 是 等 价 的 。 

定义 7. 10 (store 原子 性 的 充 要 条 件 ) 存储 系统 满足 store 原子 性 ， 当 且 仅 当 它 满足 
store 同步 性 。 

从 硬件 层面 来 看 ，store 原子 性 和 store 同步 性 之 间 的 区 别 在 于 ， 在 store 同步 性 中 ,不 同 线 
程 在 同一 时 刻 可 以 观察 到 同一 位 置 的 不 同 值 ， 因 此 store 同步 性 违反 了 定义 7.1 ~ 定义 7.4, 不 
过 ， 软 件 察觉 不 到 这 一 点 ， 因 为 软件 的 实现 是 不 依赖 于 任何 特定 时 序 的 。 而 store 同步 性 也 正 
是 利用 了 这 样 一 个 事实 ， store 操作 可 能 以 不 同 速度 传播 到 所 有 处 理 器 节点 ， 软 件 实现 上 必须 与 
具体 时 间 无 关 。 对 软件 来 讲 真正 重要 的 是 它 所 观察 到 的 对 所 有 地 址 的 所 有 store 操作 的 全 局 顺 
序 ， 而 不 是 绝对 时 间 。 注 意 ， 如 果 所 有 处 理 器 都 按照 线程 序 挨个 执行 所 有 的 load 和 store， 那 么 
满足 store 原子 性 的 系统 也 满足 顺序 一 致 性 ， 因 为 所 有 store 存在 一 个 全 局 序 ， 并 且 load 只 能 按 
照 线 程序 、 而 不 能 乱 序 观察 到 store 的 值 。 

支持 前 递 的 store 缓冲 可 以 满足 store 原子 性 和 顺序 一 致 性 “如果 考虑 所 有 内 存 地 
址 的 访问 ， 那 么 就 可 能 通过 调度 访 存 操作 来 实现 store 缓冲 的 前 递 ， 这 样 store 操作 在 软件 看 来 
就 是 原子 的 ， 整 个 过 程 也 满足 顺序 一 臻 性。 下面 我 们 根据 store 同步 性 的 定义 进行 展示 ， 整 个 
例子 说 明了 如 何 利用 store 同步 性 来 解释 存储 系统 满足 store 原子 性 。 

存储 系统 的 结构 如 图 7-19 所 示 ， 存 储 系 统 假 定 满足 原子 性 ; 但 是 load 可 以 从 本 地 store 组 
冲 中 返回 值 。 这 和 图 7-20 中 的 load 以 及 store 调度 的 主要 区 别 在 于 ,我们 现在 考虑 了 不 同 内 存 
地 址 之 间 的 相互 作用 ， 并 且 跟 踪 所 有 地 址 的 所 有 访问 ， 而 不 仅仅 是 一 个 地 址 。 如 图 7-20 所 示 ， 
load 可 以 从 本 地 store 缓冲 中 返回 值 ， 然 而 ,一 旦 load 没有 在 本 地 store 缓冲 中 找到 对 应 值 ， 那 
么 store 缓冲 中 的 内 容 就 必须 先 传播 到 cache 中 ， 然 后 load 操作 才 可 以 访问 cache。 针 对 所 有 地 
址 访问 进行 定 序 的 过 程 和 图 7-20 类 似 ， 区 别 在 于 这 里 包括 所 有 地 址 访问 。 当 load 没有 在 本 地 
store 缓冲 中 命中 时 ， 通 过 将 store 缓冲 中 的 所 有 本 地 store 都 传播 到 cache 中 ,就 可 以 将 之 前 所 
有 在 store 缓冲 中 已 经 完成 的 访问 (load 和 store) 插入 到 包括 所 有 地 址 的 load 和 store 操作 的 全 
局 序 中 。 由 于 这 些 store 还 没有 被 除了 本 地 线程 之 外 的 其 他 线程 观察 到 ， 因 此 所 有 在 store 缓冲 
项 中 本 地 执行 的 load 和 store 可 以 用 打包 插入 的 方式 来 构建 load 和 store 操作 的 全 局 序 ， 就 像 我 
们 之 前 针对 单 地 址 所 做 的 那样 。 如 果 访 存 操 作 按 照 线 程序 提交 到 store 缓冲 ， 那 么 该 系统 依然 
满足 顺序 一 致 性 ， 因 为 在 所 有 访问 的 全 局 序 中 ，load 和 store 的 顺序 也 符合 线程 序 ， 因 此 满足 
7.4.1 节 中 的 条 件 。 顺 序 一 致 性 系统 中 对 load 的 约束 使 得 整个 存储 系统 (包括 store 缓冲 ) 都 
满足 store 原子 性 。 4 

图 7-26 给 出 了 store 原子 性 、storé 同步 性 ( 从 软件 角度 看 ， 与 store 原子 性 是 一 样 的 )、 纯 
一 致 性 以 及 无 序 内 存 之 间 的 差别 。 我 们 为 各 种 系统 绘制 出 “ 值 可 观测 线 ”。 这 些 线 显示 了 处 理 
器 可 以 观测 到 新 值 的 最 早 可 能 (实际) 时间， 以 及 处 理 器 有 机 会 通过 执行 load 操作 读 到 新 值 
的 时 间 。 针 对 两 个 不 同 地 址 X 和 的 可 观测 线 ， 如 图 7-26 所 示 。 

在 满足 严格 一 致 性 的 存储 系统 中 ，store 的 值 同 时 对 所 有 线程 可 见 。 在 store 同步 系统 中 
(和 store 原子 性 系统 一 样 ) ，store 值 可 能 在 不 同 的 时 间 对 不 同 处 理 器 可 见 ,但 是 值 可 观测 线 不 
会 有 交叉 ， 所 有 处 理 器 以 相同 的 顺序 观察 到 store 的 值 。 在 硬件 层面 会 违反 store 原子 性 (处 理 
器 在 相同 时 刻 可 以 观察 到 不 同 store 的 值 ) ， 然 而 时 序 无 关 的 软件 无 法 检测 到 这 种 硬件 层面 的 非 
原子 性 ， 因 此 我 们 仍然 认为 该 存储 系统 满足 原子 性 。 图 7-26b 和 图 7-26c 展示 了 store 原子 性 和 
纯 一 致 性 之 间 的 区 别 ， 在 纯 二 致 性 下 ,， 不同 store 处 理 器 可 以 在 相同 时 刻 观 察 到 相同 位 置 的 不 
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同 值 ， 而 且 store 值 的 可 观测 线 可 能 会 交叉 ， 使 得 对 不 同 地 址 的 store 可 能 被 不 同 线程 按 不 同 的 
顺序 观察 到 。 最 后 ， 图 7-26c 和 图 7-26d 说 明了 纯 一 致 性 和 无 序 内 存 (不 符合 一 致 性 ) 之 间 的 
差别 ， 在 无 序 内 存 中 ， 两 个 线程 可 以 按 不 同 顺序 观察 到 对 同一 内 存 地 址 的 两 次 store。 

处 理 器 号 
S'(X)x1 













mF 起 时 A 值 可 观测 线 .二 二 一 -， SkyY)y 
SK(X)xa 
2 tp a SI(Y)y2 
实际 时 间 a ) 严格 一 致 性 
处 理 器 号 


Si(X)x1 
SY)y1 
SK(X)xo 


一 一 一 一 一 一 一 一 一 - S(Y)yz 


处 理 器 号 
i SiY)y1 


Si(X)x1 


d ) 无 序 内 存 


图 7-26 值 可 观测 线 


J on 

在 多 任务 程序 中 ， 对 线程 间 进 行 可 靠 同步 的 需求 远 比 一 致 性 (coherence) 或 者 存储 一 致 性 
模型 更 重要 ， 即 使 系统 满足 顺序 一 致 性 ， 也 仍然 需要 同步 支持 。 同步 是 计算 机 中 一 个 非常 古老 
的 问题 ， 可 以 追溯 到 多 任务 操作 系统 的 问世 ， 早 在 多 处 理 器 系统 出 现 之 前 ， 同 步 原 语 的 正确 执 
行 就 已 经 是 一 个 基本 的 系统 需求 。 

20 世纪 60 年代， 当时 电脑 使 用 的 还 是 基于 打 孔 卡 的 编程 ,计算 任 务 也 是 以 批 处 理 形式 提 
交 ， 从 那 时 开始 ， 用 户 就 通过 分 时 的 方式 共享 一 些 计算 机 资源 ， 比 如 处 理 器 、 存 储 器 和 IO 设 
备 等 。 分 时 操作 系统 必须 正确 、 可 靠 、 公 平地 进行 资源 共享 。 用户 在 时 间 上 复 用 这 些 资 源 ， 在 
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保证 合理 的 个 人 响应 时 间 的 情况 下 最 大 化 系统 吞吐 量 。 即 使 现在 ， 共 享 和 对 系统 资源 的 分 时 复 
用 仍然 是 高 端 服务 器 的 重要 目标 ， 因 为 资源 的 成 本 都 很 高 ， 并 且 单个 用 户 难以 充分 利用 所 有 资 
源 。 通 常情 况 下 ， 用 户 进程 在 CPU 上 连续 运行 ， 直 到 它 请 求 操 作 系统 服务 来 访问 共享 资源 时 
才 会 中 断 。 每 个 进程 都 会 分 配 一 个 固定 的 时 间 片 一 一 最 长 周期 数 ， 当 时 间 片 结束 时 ， 进 程 就 会 
被 抢占 ， 这 样 其 他 用 户 进程 可 以 获得 机 会 运行 。 基 于 分 时 共享 的 单 处 理 器 系统 现在 通常 称 为 软 
件 多 线程 。 

分 时 共享 单 处 理 器 系统 的 多 个 进程 也 可 以 共享 一 些 内 存 位 置 ， 当 进程 共享 内 存 时 ， 需 要 通 
过 同步 来 获得 共享 内 存 地 址 的 访问 权 。 当 多 个 处 理 器 核 共 享 内 存 的 时 候 ， 同 步 就 更 加 关键 ， 因 
为 这 种 情况 下 的 线程 或 进程 是 并 发 执行 的 ， 而 不 是 一 次 只 有 一 个 。 


7.5.1 基本 同步 原 语 


当 共 享 物理 资源 (例如 打印 机 或 共享 内 存 区 域 ) 可 被 多 个 代理 (进程 或 线程 ) 访问 时 ， 
任意 时 刻 只 能 有 一 个 代理 同时 访问 。 在 分 时 操作 系统 中 ,这 一 需求 可 以 通过 同步 标志 或 内 存 中 
的 信号 量 来 保证 。 共 享 变 量 指示 了 资源 是 否 处 于 忙 的 状态 ， 对 这 类 共享 变量 的 更 新 在 计算 机 体 
系 结构 和 操作 系统 中 是 一 个 非常 关键 而 又 基本 的 问题 。 

基本 的 锁 问 题 

下 面 我 们 介绍 在 多 线程 中 共享 内 存 位 置 的 一 些 最 基本 问题 。 线 程 在 访问 共享 可 写 变 量 时 必 
须 进 行 互 斥 ， 这 意味 着 任何 时 间 只 有 一 个 线程 可 以 访问 该 变量 。 

假设 下 面 修改 共享 变量 A 的 语句 在 两 个 不 同 的 线程 (Tl 和 T2) 中 执行 (下面 给 出 的 是 仅 
有 的 两 条 动态 更 新 A 的 语句 ) : 


T1 T2 
A=A+1 A=A+1 


程序 员 期 望 的 结果 是 : 无 论 这 两 条 语句 以 什么 顺序 执行 ,最终 的 结果 都 是 A +2。 但 是 这 
种 直觉 是 不 可 靠 的 ， 因 为 这 个 加 1 的 语句 可 能 不 是 原子 执行 的 ， 编 译 后 的 代码 实际 上 可 能 包含 
多 条 指令 ， 例 如 ，load/store 和 算术 /逻辑 指令 。 

单 处 理 器 上 一 次 只 能 执行 一 个 线程 ， 可 能 是 按照 下 列 指令 顺序 执行 (具体 取决 于 操作 系统 
特定 的 调度 机 制 ) : 


eH 疙 晓 - LW R1,A /T1 IS PREEMPTED 


T2: LW R1,A /LATER, T2 RUNS 
T2:: RDDI R1,R1,1 \ 
Tos SW R1,A 


i mare /T2 IS PREEMPTED 

T1: ADDI R1,R1,1 /T1 RESUMES 

T1: SW R1,A 

Tl 先 执行 load， 然 后 时 间 片 用 完 后 切换 到 T2 调度 执行 ， 执 行 三 条 指令 后 也 被 抢占 出 去 ， 
然后 继续 调度 Tl 执行 并 执行 完 剩余 的 指令 。 可 以 看 到 ， 最 终 的 结果 是 A +1 而 不 是 程序 员 所 期 
望 的 A+2。 

在 多 处 理 器 系统 (或 硬件 多 线程 处 理 器 核 ) 中 ,线程 T1 和 T2 可 能 在 不 同 的 线程 上 下 文 或 
者 处 理 器 核 上 并 发 执行 ， 它 们 可 能 同时 在 执行 A+l 的 操作 ,在 这 种 情况 下 ， 可 能 出 现下 面 的 
指令 动态 交错 情况 (假设 顺序 一 致 性 ): 
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Tl T2 


LW R1,A 

LW R1,A 
ADDI R1,R1,1 h 

ADDI R1,R1,1 
SW R1,A 

SW R1,A 


同样 ， 这 次 的 结果 还 是 A=1， 而 不 是 预期 的 A =2。 如 果 想 确保 A 的 最 终 值 总 是 2， 那 么 
A +1 这 条 语句 的 执行 过 程 必须 满足 原子 性 ， 或 者 是 不 同 线程 在 执行 这 条 语句 时 在 时 间 上 不 会 
有 任何 的 重合 〈 互 斥 ) 。 上 述 经 典 问题 可 以 用 临界 区 来 解决 ， 临 界 区 包括 一 个 受 保护 的 、 可 被 
多 个 线程 执行 的 代码 段 ， 代 码 段 中 包含 对 共享 数据 的 读 / 写 访 问 ， 临 界 区 内 的 代码 段 在 任何 时 
间 只 能 在 一 个 线程 中 执行 。 

在 支持 软件 多 线程 且 只 有 一 个 执行 上 下 文 的 单 处 理 器 中 ， 临 界 区 代码 可 以 通过 关闭 中 断 的 
方式 来 实现 : 


TL 


disable interrupts 
A=A+1 
enable interrupts 


然而 ， 在 硬件 多 线程 处 理 器 核 或 者 多 核 系 统 中 ， 关 闭 中 断 是 没有 用 的 ， 因 为 线程 是 在 不 同 
的 上 下 文中 并 行 执行 的 。 这 种 情况 下 必须 使 用 锁 。 锁 是 一 种 用 来 保护 临界 区 内 关键 代码 段 的 原 
语 。 典 型 的 锁 是 一 个 二 进 制 标志 位 ， 当 值 为 0 时 ， 表 示 锁 可 用 。 线 程 通过 将 锁 设 置 为 1 来 获取 
(acquire) 锁 ， 当 锁 被 设置 时 ， 获 得 该 锁 的 线程 可 以 继续 执行 临界 区 的 代码 ， 而 其 他 线程 被 限 
制 在 同一 把 锁 所 对 应 的 临界 区 外 ， 等 待 锁 释放 (release)。 处 于 临界 区 内 的 线程 可 以 随意 地 读 
写 共享 变量 。 在 临界 区 代码 的 最 后 ,线程 通过 将 锁 的 值 重 置 为 0 来 释放 锁 (这 通常 称 为 解锁 或 
释放 操作 ) 。 当 锁 被 释放 时 ， 临 界 区 内 发 生 的 修改 对 其 他 线程 可 见 : 


TU T2 

Lock (La) Lock (La) 
A=A+1 A=A+1 
unlock (La) unlock (La) 


锁 可 以 通过 对 共享 内 存 标志 位 的 简单 load 和 store 操作 实现 ， 这 里 我 们 以 Dekker (或 Peter- 
son) 算法 为 例 ， 其 最 简单 的 版 本 包括 两 个 线程 : 


INIT A=B=0 
TE T2 
= 工 B=1 /acquire 
while (B==1); while (A==1); 
<critical section> <critical section> 
A=0 B=0 /release 


Tl 对 标志 A 置 位 ， 以 此 告诉 T2 它 想 进 入 临界 区 代码 ; 同样 ，T2 对 标志 B 进行 置 位 。 然 
后 T1 检查 标志 B 以 验证 T2 的 情况 ， 如 果 标 志 B 被 置 位 ,那么 Tl 等 待 。 这 段 代码 确保 某 一 时 
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间 至 多 只 有 一 个 线程 能 执行 临界 区 代码 ， 从 而 表现 出 锁 的 作用 。 在 临界 区 的 最 后 ， 会 对 阻塞 其 
他 线程 的 标志 位 进行 复位 。 这 种 使 用 常规 共享 变量 实现 锁 的 方法 有 如 下 几 个 缺陷 : 

。 如 果 两 个 线程 同时 设置 了 标志 位 ， 那 么 会 出 现 死 锁 (当然 我 们 可 以 通过 更 复杂 的 代码 

来 解决 ) ; 

e 当 线 程 数 增加 时 ， 代 码 会 变 得 很 复杂 ; 

。 只 有 在 顺序 一 致 性 下 ， 上 述 代 码 才 能 正确 工作 。 

由 于 上 述 原因 ， 我 们 通常 使 用 特殊 的 硬件 支持 来 实现 锁 机 制 ， 比 如 原子 的 RMW (read- 
modify- write) 指令 (test_and_set) ,专门 的 总 线 ， 或 者 同步 寄存 器 等 。 

barrier (栅栏 ) 

barrier 是 多 个 线程 之 间 的 同步 协议 ， 只 有 当 所 有 线程 都 到 达 barrier 时 ， 才 能 继续 执行 bar- 
rier 后 的 操作 。 下 面 以 两 个 线程 为 例 给 出 一 个 简单 的 barrier 代码 : 


INIT BAR=0 

T1 T2 

Lock(bar lock); Lock (bar lock); 
BAR= BAR+1 ; BAR= BAR +1; 
Unlock (bar lock); Unlock (bar lock); 
while (BAR < 2); while (BAR < 2); 


两 个 线程 都 在 barrier 处 将 barrier 计数 器 (BAR) 分 别 加 1， 然后 检测 barrier 值 ， 等 待 直到 
BAR 变 为 2， 然 后 再 继续 执行 。 注 意 ， 对 bamier 计数 器 的 加 1 操作 必须 在 临界 区 完成 .但 是 
while 循环 中 的 读 BAR 操作 没 必要 放 到 临界 区 内 ， 因 为 BAR 的 值 是 单调 增加 的 ， 并 且 while 循 
环 要 检测 的 是 BAR 到 达 最 大 值 的 时 刻 。 这 个 例子 说 明 要 想 高 效 而 正确 地 编写 共享 内 存 程序 是 
多 么 困难 。 

barrier 在 用 循环 实现 的 迭代 算法 中 广泛 使 用 ， 图 7-2 展示 了 一 个 Jacobi 迭代 算法 的 例子 。 
每 个 兴 代 包含 两 步 : 在 第 一 步 中 ， 线 程 按 互 斥 方式 修改 和 访问 X, 的 值 ; 在 第 二 步 中 ， 所 有 线 
程 按 只 读 方式 访问 X, 的 值 。 对 Y, 值 的 访问 也 是 类 似 。 算 法 通过 barrier 将 不 同 的 迭代 以 及 迄 代 
内 的 不 同步 又 之 间 进 行 了 区 分 。 在 通常 情况 下 ，barrier 可 以 用 于 实现 有 大 量 数据 访问 的 临界 
区 ， 并 且 比 简单 对 大 量 数据 加 锁 的 方法 更 加 高 效 。 

还 有 一 个 问题 是 ， 例 子 中 的 barrier 代码 必须 在 后 续 迭 代 中 重复 执行 。 因 此 ， 上 面 这 种 简单 
barier 实现 的 代码 必须 进行 修改 ， 在 每 次 barrier 完成 之 后 可 以 复位 。 这 也 是 个 不 小 的 问题 , 目 
前 这 份 简单 代码 中 总 是 假定 BAR 是 单调 增加 的 。 

点 对 点 (生产 者 /消费 者 ) 同步 

有 时 候 生产 者 线程 需要 向 消费 者 线程 发 送信 和 号， 告诉 对 方 自己 已 经 执行 到 某 个 位 置 ， 这 种 
情况 可 以 通过 内 存 中 的 一 个 简单 共享 标志 位 来 实现 : 


INIT A=FLAG=0 


Tl 2 

A 

FLAG=1; /release 
while (FLAG==0); /acquire 
print A 


在 本 例 中 ，T2 是 生产 者 ，T1 是 消费 者 ， 且 Tl 中 打印 的 A 的 值 必须 是 1。 对 FLAG 的 访问 
不 需要 临界 区 保护 ， 因 为 只 有 一 个 线程 可 以 修改 FLAG。 在 单个 生产 者 、 多 个 消费 者 的 情况 下 
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也 是 同样 的 。 这 段 代码 的 问题 在 于 它 依赖 于 特定 的 存储 一 致 性 模型 并且 可 能 不 适用 于 某 些 存 
储 一 致 性 模型 。 


7. 5.2 基于 硬件 的 同步 


锁 和 barrier 可 以 通过 专门 的 硬件 来 实现 ， 比 如 总 线 或 者 寄存 器 /触发 器 。barrier 可 以 通过 
使 用 开 集 互 连 的 专门 总 线 来 实现 ， 初 始 状态 为 高 。 当 线程 检查 barrier 时 ， 就 会 试图 将 其 拉 低 ， 
只 有 当 所 有 线程 都 这 样 做 时 ,操作 才能 成 功 ， 此 时 所 有 线程 都 已 经 到 达 barrier 点 。 

共享 同步 寄存 器 可 以 实现 同样 的 功能 ， 区 别 在 于 寄存 器 可 以 在 多 个 时 钟 周期 内 保存 值 〈 类 
似 于 内 存 ) ， 而 总 线 不 能 〈 总 线 只 能 在 当前 时 钟 保持 值 )8 此 外 ， 还 可 以 用 共享 触发 器 来 实现 
锁 ， 用 共享 计数 寄存 器 来 实现 barrier。 

硬件 实现 同步 原 语 的 缺陷 如 下 : 

。 可 扩展 性 差 。 需 要 用 到 内 存 之 外 的 其 他 共享 资源 ， 而 共享 资源 的 带宽 制约 了 其 所 能 连 

接 的 处 理 器 数目 。 

。 灵活 性 有 限 。 如 果 硬 件 同步 资源 (总线 、 触 发 髓 、 寄 存 器 ) 不 够 ,那么 当 硬 件 资源 达 
到 最 大 数 时 ,要 人 么 将 某 些 线程 暂停 .要么 对 同步 硬件 资源 进行 分 时 复 用 (虚拟 化 )， 
这 比 用 共享 内 存 来 实施 同步 的 方法 要 更 加 困难 ， 效 率 也 更 低 。 

。 复杂 度 更 高 。 现 在 的 处 理 器 都 是 多 线程 的 ， 因 此 需要 在 每 个 线程 (而 不 仅仅 是 每 个 处 
理 器 ) 上 都 做 硬件 的 同步 支持 。 

相 比 之 下 ,共享 内 存 可 以 为 同步 锁 提 供 足 够 的 共享 内 存 地 址 ， 而 cache 机 制 也 有 助 于 提高 
内 存 访问 的 可 扩展 性 ， 包 括 对 诸如 锁 这 样 的 共享 同步 数据 的 访问 。 


7. 5. 3 基于 软件 的 同步 


从 历史 上 看 ， 同 步 大 多 是 通过 共享 内 存 和 RMW (read-modify- write) 这 样 的 特殊 共享 内 存 
操作 指令 实现 的 。RMW 指令 是 load 和 store 之 外 的 一 类 新 的 访 存 指令 ，RMW 指令 从 内 存 读 值 ， 
进行 修改 ,然后 再 将 新 值 写 回 内 存 ， 整 个 过 程 是 原子 完成 的 ， 所 有 的 现代 ISA 都 有 提供 支持 
RMW 原子 操作 的 指令 。 

借助 于 原子 访 存 指令 ， 可 以 实现 可 靠 而 复杂 的 锁 机 制 。 为 了 说 明 RMW 指令 在 共享 内 存 锁 
机 制 中 的 必要 性 ， 下 面 先 给 出 一 个 简单 使 用 load 和 store 指令 加 锁 的 方法 : 


Lock : LW R2,1ock * 

BNEZ R2,Lock 

SW R1,1lock /R1 = 1 
Unlock: SW RO,1ock 


在 上 面 的 代码 中 ， 锁 一 直 处 于 “人 忙 等 ”状态 ， 直 到 返回 值 为 0， 然 后 再 将 lock 设置 为 1。 
加 锁 是 为 了 解决 原子 性 的 问题 ,但 是 加 锁 代码 本 身 也 面临 同样 的 问题 一 一 缺乏 原子 性 保证 。 如 、 
果 两 个 线程 同时 将 值 为 0 的 lock 加 载 到 R2 寄存 器 中 ， 那 么 将 导致 两 个 线程 同时 进入 临界 区 ， 
这 样 会 出 现 意 想不到 的 结果 。 

Test_and_set 指令 

诸如 test_and_set (T&S) 这 样 的 原子 RMW 指令 解决 了 锁 的 问题 。T&S 指令 可 以 读 取 内 存 
位 置 ， 同 时 原子 性 将 其 设置 为 1， 并 将 读 到 的 值 返回 寄存 器 : 

TES Rl1, lock 

如 果 Rl 中 返回 的 值 是 0 (成 功 ) ， 则 获得 锁 ; 如 果 Rl 中 返回 的 值 是 1， 则 表示 获取 锁 失 
败 。 使 用 T&S 指令 ， 可 以 在 多 处 理 器 系统 中 实现 锁 机 制 。 
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Lock: T&S R1,1lock 
BNEZ R1,Lock 


Unlock: SW RO,1lock 


T&S 指令 是 除 load 和 store 之 外 的 一 类 新 的 访 存 指令 ， 软 件 总 是 认为 其 执行 过 程 是 原子 的 。 
如 果 锁 不 可 缓存 ， 那 么 这 个 操作 可 以 在 内 存 中 完成 ， 如 果 锁 可 以 缓存 ， 那 么 在 cache 中 完成 。 
如 果 T&S 在 内 存 中 执行 ， 那么 将 绕 过 cache， 这 时 内 存 控制 器 可 以 先 执行 一 条 load， 紧 接着 执 
行 一 个 store 1 的 操作 ， 并 将 load 的 值 返回 ， 这 样 就 可 以 保证 RMW 的 原子 性 。 如 果 T&S 在 
cache 中 执行 ， 那 么 对 应 的 cache 协议 应 该 是 一 个 基于 无 效 机 制 的 协议 ， 比 如 MSI- 无 效 协 议 。 
在 MSI- 无 效 协议 中 ，T&S 被 当 作 store 来 处 理 ， 因 此 在 尝试 执行 T&S 之 前 ， 线 程 的 cache 必须 
获得 一 份 Modified 状态 的 唯一 副本 。 一 旦 获得 Modified 状态 副本 ,T&S 就 可 以 在 数据 块 被 清空 
之 前 通过 cache 控制 器 在 cache 中 执行 。 如 果 处 理 器 核 支 持 多 线程 ， 并 且 Ll cache 中 对 应 锁 的 
副本 是 Modified 状态 ， 那 么 同一 个 核 上 的 多 个 线程 可 能 会 竞争 Ll cache 中 的 同一 把 锁 。 

无 论 使 用 MSI- 无 效 协议 的 T&S 指令 是 在 内 存 中 还 是 在 cache 中 执行 ， 上 述 加 锁 的 代码 都 会 
在 存储 总 线 上 产生 大 量 流量 : 没有 cache 的 情况 下 ， 所 有 T&S 都 必须 到 达 内 存 执 行 ; 而 在 有 
cache 的 情况 下 ， 当 不 同 核 的 线程 都 处 于 等 待 锁 的 状态 时 ， 也 会 导致 包含 锁 的 数据 块 在 不 同 核 
的 cache 之 间 来 回 传递 。 下 面 假定 锁 在 cache 中 执行 ， 现 代 系 统 中 一 般 也 都 是 这 样 的 。 

为 了 减少 cathe 之 间 的 通信 量 ， 处 于 循环 忙 等 状态 的 T&S 可 以 先 暂 停 一 段 时 间 后 再 重 试 。 
在 诸如 以 太 网 的 网 络 协议 中 ， 通 和 常 使 用 指数 回 退 算法 来 解决 这 一 问题 ， 每 次 T&S 失败 时 ， 到 
下 次 尝试 之 间 的 延迟 按照 指数 增加 ， 也 就 是 说 ,第 i 次 尝试 时 的 回 退 延迟 是 xc 。 出 于 这 个 
目的 ， 每 次 失败 后 都 会 执行 一 个 空 循环 。 

利用 cache 协议 的 一 个 常用 技术 是 “test_and_test&set” 锁 ， 


Lock: LW R1,1lock 
BNEZ R1,Lock 
T&S R1,1lock 
BNEZ R1, Lock 


Unlock: SW RO,1lock 


这 段 代 码 中 ， 人 忙 等 循环 先 执行 一 个 常规 的 load， 并 且 在 MSI- 无 效 协 议 的 cache 中 命中 ， 只 
要 load 返回 0，T&S 就 试图 执行 原子 操作 抢占 锁 。 如 果 T&S 失败 (如果 多 个 线程 同时 获取 同一 
把 锁 ， 这 种 情况 就 可 能 发 生 ) ， 那 么 又 重新 回 到 执行 load 的 忙 等 循环 的 开始 位 置 。 当 锁 处 于 忙 
状态 ， 并 且 存 在 多 个 线程 争夺 锁 时 ，test_and_test&set 锁 机 制 可 以 减少 访 存 通信 量 。 

其 他 的 RMW 指令 

除了 test_and_set 之 外 ， 在 现代 指令 集中 还 包括 其 他 RMW 指令 。 

e swap 对 test_and_set 进行 了 扩展 ， 存 在 寄存 器 中 的 lock 值 可 以 设置 成 任意 值 : 

SWAP Rx,1lock 

Rx 中 的 值 和 内 存 lock 处 的 值 进行 原子 交换 。 当 寄存 器 中 的 值 是 1 时， 就 对 应 test_and_set， 
因此 test_and_set 是 swap 的 一 种 特殊 情况 。 如 果 交 换 中 的 寄存 器 使 用 RO，swap 也 可 以 用 来 进行 
解锁 。 

。 compare_and_swap (CAS) 类 似 于 swap， 区 别 在 于 只 有 当 条 件 满足 才 会 执行 交换 操作 : 


CAS Rx/Ry,lock 


比较 Rx 和 内 存 地 址 lock 处 的 值 ， 如 果 相 等 ,将 Ry 和 loek 中 的 值 进行 交换 (整个 过 程 原 
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子 完 成 ) 。CAS 常用 于 管理 队列 的 原子 插入 和 删除 。 
。 fetch_and_op (F&OP) 返回 一 个 内 存 位 置 的 值 ， 然 后 对 该 内 存 位 置 执行 OP 操作 ， 整 个 
过 程 原子 完成 。F&OP 的 最 常见 形式 是 F&ADD: 


F&ADD Rx, lock,Imm 


内 存 地 址 lock 处 的 值 读 取 到 Rx 中 ， 然 后 lock 和 立即 数 Imm 相 加 ， 整 个 过 程 原子 完成 。 在 
做 动态 循环 迭代 调度 时 ，F&ADD 是 一 条 非常 有 用 的 指令 。 
Load locked (LL) 和 store conditional ( SC ) 
RMW 指令 属于 复杂 指令 ， 不 是 很 适合 五 级 流水 线 或 者 乱 序 执行 的 RISC 流水 线 ， 因 为 该 指 
令 要 求 原子 执行 两 个 访 存 操作 (一 次 load 和 一 次 store)。 实 际 上 ，RMW 指令 中 的 load 和 store 
也 可 以 是 单独 的 指令 ， 只 要 硬件 能 确保 在 这 两 条 指令 之 间 的 整个 执行 过 程 不 会 违反 原子 性 。 使 
用 两 条 单独 的 指令 来 实现 T&S 锁 的 方法 如 下 所 示 : 
T&S (Rx, lock): ADDI R]1,R0,1 
LL Rx,1lock 
SC Rllock 
BEQZ R1, T&S 
return 
LL 指令 (Load-linked 或 者 load-locked) 将 内 存 地 址 lock 处 的 值 加 载 到 Rx,- SC ( store con- 
ditional) 只 有 在 LL 之 后 没有 其 他 store 执行 时 ， 才 会 更 新 内 存 。 否 则 ， 将 取消 对 内 存 的 更 新 ， 
RI1 寄存 器 返回 0。 如 果 R1 返回 的 是 0， 那 么 接着 重 试 LL。 一 旦 SC 返回 一 个 非 零 值 到 RI1， 上 
述 test-and-set 操作 成 功 将 lock 的 值 返回 到 Rx。 在 支持 条 件 标 志 的 机 器 中 ， 可 以 使 用 一 个 条 件 
位 来 表示 SC 执行 失败 。 
除了 比较 适合 RISC 和 带 推测 的 0o0 流水 线 外 ， 基 于 LL 和 SC 的 RMW 实现 也 非常 灵活 。 
我 们 可 以 通过 简单 改变 LL 和 SC 之 间 的 代码 ， 就 能 实现 各 种 复杂 多 样 的 RMW 原 语 操作 。 当 然 
也 会 有 一 些 限制 ， 比 如 LL 和 SC 之 间 的 代码 越 复杂 ，SC 就 越 可 能 会 失败 。 此 外 ，LL 和 SC 之 
间 的 代码 应 当 避 免 出 现 不 可 撤销 的 操作 ， 比 如 store 指令 或 者 可 能 造成 异常 的 指令 。 
LL/SC 的 实现 依赖 于 cache 一 致 性 协议 ， 监 听 单 元 或 者 网 络 接口 上 支持 一 个 LL 位 ， 执 行 
LL 指令 时 会 对 LL 位 进行 置 位 。 监 听 单 元 或 网 络 接 口 对 输入 信号 进行 侦 听 ， 一旦 接收 到 无 效 或 
者 更 新 消息 时 会 对 LL 位 进行 复位 ， 从 而 导致 随后 的 SC 执行 失败 。 网 络 接口 上 可 以 支持 多 个 标 
识 了 锁 地 址 的 二 位，LL 位 由 SC 进行 复位 。 
使 用 LL 和 SC 实现 CAS 给 出 CAS (Rx，Ry，X) 的 实现 代码 ，Rx 的 值 先 和 内 
存 地 址 X 的 值 进行 比较 ， 如 果 相 等 ,将 Ry 和 X 中 的 值 进行 交换 ， 否 则 Ry 保持 不 变 。 


CAS (Rx, Ry,X) ADD R2,Ry,RO /save Ry in R2 
LL R1,X 
BNE Rx,R]1,return 
SC R2,X /attempt to store Ry 
BEQZ R2,CAS 
ADD Ry,R1,RO /return X in Ry 


return: 


在 上 述 代 码 中 ,需要 在 多 个 CAS 迭代 中 分 别 保 存 Ry 的 值 。 如 果 SC 执行 成 功 或 者 失败 的 
结果 可 以 通过 一 个 条 件 位 来 表示 ， 那 么 就 不 需要 每 个 迭代 都 保持 Ry 了 。 4 

信号 量 

信号 量 (semaphore) 是 建立 在 加 锁 和 解锁 原 语 之 上 的 系统 级 同步 原 语 。 信 号 量 包 含 两 个 
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操作 P 和 V: P(sem) 是 用 来 获取 信号 量 的 内 核 调用 (进入 临界 区 ); V(sem) 是 释放 信号 量 
的 内 核 调 用 (退出 临界 区 )。 

布尔 信号 量 是 一 个 行为 类 似 于 锁 的 三 进 制 变量 , 值 为 1 时 ， 表 示 该 信号 处 于 释放 状态 , 值 
为 0 时 ,该 信号 量 处 于 忙 状态 。 布 尔 信 号 量 通常 用 来 控制 大 型 临界 区 的 访问 ,临界 区 要 大 到 足 
以 支撑 线程 抢占 和 调度 的 开销 。 


Plsem): if (sem>0) then sem-- 
else <block calling thread and switch‘to another thread>; 


V(sem): if <there is a thread waiting on sem> then 
<select waiting thread and wake it up> 
else sem++; 


信和 号 量 (semaphore) 先 初始 化 为 1， 如 果 执 行 P 操 作 时 信号 量 处 于 忙 状态 ， 那 么 线程 将 被 
挂 起 ， 其 对 应 描述 符 插入 到 与 该 信号 量 关联 的 等 待 队 列 中 ， 然 后 启动 其 他 线程 执行 。 执 行 V 操 
作 时 ， 将 查询 与 该 信号 量 关 联 的 等 待 队列 ， 如 果 队 列 为 空 ， 则 释放 信和 号 量 ， 否 则 从 等 待 队列 中 
激活 具有 最 高 优先 级 的 线程 执行 。 

同步 事件 的 构成 

线程 上 的 软件 同步 原 语 或 操作 (如 barrier，thread_create 或 thread_terminate) 是 建立 在 锁 
维护 的 临界 区 的 基础 上 的 。 锁 必须 先 执行 aequire (获取 ) 后 执行 release (释放 ) 。acquire 是 为 
了 获得 同步 变量 的 访问 权 ， 以 便 执行 同步 点 后 的 操作 。 而 release 则 是 为 了 使 其 他 线程 也 可 以 通 
过 同步 点 ，release 可 以 通过 简单 的 store RO 或 者 swap RO 操作 来 完成 ，acquire 的 实现 则 更 加 复 
杂 ， 需 要 包含 相关 的 等 待机 制 。 

一 种 常见 的 等 待机 制 是 忙 等 〈busy waiting)， 当 锁 处 于 忙 状 态 时 ， 线 程 会 一 直 对 锁 进行 检 
测 ， 直 到 解锁 。 上 述 过 程 会 消耗 大 量 处 理 器 资源 和 内 存 带 宽 ， 通 过 将 线程 调度 出 去 可 以 减轻 这 
种 开销 。 在 硬件 多 线程 处 理 器 核 中 ， 等 待 锁 的 线程 可 能 被 暂停 ， 或 者 运行 优先 级 可 能 被 降低 。 
在 某 些 情况 下 ， 锁 等 待 可 能 会 导致 某 些 正在 运行 的 线程 〈 块 ) 被 挂 起 ， 并 从 ready-to-run 线程 
列表 中 删除 。 在 某 些 机 器 上 ， 这 可 能 意味 着 需要 收回 之 前 分 配 的 线程 上 下 文 。 

另 一 种 等 待 方法 是 阻塞 (blocking) 。 在 支持 信号 量 的 操作 系统 中 ，P 就 是 一 个 阻塞 操作 。 
当 执行 acquire 操作 时 ， 如 果 信 和 号 量 忙 ， 那 么 线程 就 会 取消 调度 ， 并 将 其 放 人 与 其 关联 的 信和 号 
量 等 待 队 列 中 ,然后 调度 男 一 个 线程 到 硬件 线程 上 下 文中 ， 从 而 将 处 理 器 释放 给 其 他 线程 
执行 。 

选择 哪 种 等 待 方法 〈 忙 等 还 是 阻塞 ) 主要 取决 于 预期 的 等 待 时 间 。 忙 等 方式 几乎 没有 线 
程 调度 开销 ， 但 是 会 消耗 硬件 资源 。 因 此 ， 只 能 用 于 预计 等 待 时 间 很 短 的 情况 。 相 反 ， 如 果 预 
计 的 等 待 时 间 很 长 ， 那 么 最 好 是 抢占 该 等 待 线程 ， 将 硬件 上 下 文 分 配给 其 他 线程 。 另 外 ， 在 某 
些 情况 下 ， 可 能 混合 方法 会 更 有 效 : 首先 ， 线 程 试图 通过 忙 等 来 获得 锁 ， 如 果 试 验 几 次 不 成 功 
的 话 ， 再 将 该 线程 挂 起 到 等 待 队 列 中 。 

如 果 系 统 中 除了 正在 等 待 的 线程 外 没有 其 他 可 运行 线程 ， 那 么 不 管 需要 等 多 久 ， 都 可 以 采 
用 忙 等 策略 。 最 后 ， 在 操作 系统 内 核 级 别 ， 忙 等 通常 是 必需 的 一 种 策略 ， 因 为 内 核 直接 和 裸 的 
硬件 交互 ， 在 这 个 层次 上 没有 任何 关于 抢占 和 线程 调度 的 硬件 机 制 支持 。 


7.6 放松 的 存储 一 致 性 模型 


顺序 一 致 性 是 程序 员 所 期 望 的 最 严格 的 一 种 存储 一 致 性 模型 。 在 顺序 一 致 性 模型 中 ， 不 同 
线程 的 所 有 访 存 指令 按照 全 局 一 致 序 交错 执行 ， 并 且 线 程 内 部 满足 线程 序 。 当 然 ， 我 们 还 可 以 
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在 顺序 一 致 性 基础 上 再 增加 别 的 限制 ， 不 过 这 不 是 很 必要 ， 因 为 程序 员 通 常 不 会 有 这 种 要 求 。 
顺序 一 致 性 对 硬件 提出 了 严格 限制 ， 它 限制 了 访 存 操作 该 如 何以 及 何 时 发 射 和 全 局 完成 ， 尤 其 
是 ， 在 顺序 一 致 性 下 ，store 缓冲 变 得 毫 无 用 处 ， 这 导致 流水 线 中 的 store 延迟 非常 明显 。 

编译 器 也 可 能 无 法 完整 领会 程序 员 的 意图 ， 因 为 代码 的 移动 和 删 减 都 是 在 每 个 线程 中 独立 
进行 的 。 例 如 ， 在 下 面 的 代码 中 ， 编 译 器 可 能 会 将 Tl 中 FLAG 的 更 新 操作 移 到 A 的 更 新 之 前 ， 
因为 这 种 代码 移动 不 会 导致 本 地 相关 。 此 外 ， 高 效 的 编译 器 可 能 会 检测 到 线程 T2 中 的 while 循 
环 是 一 个 无 限 循环 ， 因 此 在 优化 时 可 能 将 其 删除 。 

INIT: A=FLAG=0 

3 T2 ， 

A=]; while (FLAG==0); 

FLAG=1; Print A; 

为 了 防止 这 种 情况 发 生 ， 程 序 员 必 须 将 FLAG 声明 为 一 个 特殊 的 共享 变量 ， 这 样 编译 器 就 
会 非常 慎重 地 处 理 对 其 的 访问 操作 。 在 这 种 情况 下 ， 可 以 通过 使 用 特殊 的 load 和 store， 在 硬件 
上 将 这 种 特殊 变量 的 访问 和 普通 变量 的 访问 进行 区 分 。 因 此 ， 一 味 地 追求 硬件 上 的 顺序 一 致 性 
可 能 并 没有 什么 实际 价值 。 

当 使 用 其 他 模型 时 ， 硬 件 可 能 会 更 加 高 效 。 当 存储 一 致 性 模型 对 硬件 的 需求 比 顺 序 一 致 性 
更 弱 时 ， 我 们 称 之 为 放松 的 存储 一 致 性 模型 。 放 松 的 存储 一 致 性 模型 可 能 依赖 也 可 能 不 依赖 于 
诸如 T&S 或 CAS 这 样 的 显 式 同步 原 语 。 在 本 节 中 ， 我 们 将 探讨 几 类 重要 的 存储 一 致 性 模型 。 


7.6.1 不 依赖 于 同步 的 放松 模型 


大 家 可 能 会 有 这 样 的 疑问 : 我 们 为 什么 要 蔡 编 程 人 员 考 虑 那么 多 ? 为 什么 不 直接 设计 一 个 
“硬件 友好 的 ” 且 不 考虑 编程 人 员 意 图 的 访 存 规 则 呢 ? 这 样 编程 人 员 通 过 一 些 简 单 的 抽象 模型 
对 规则 进行 学 习 就 行 ， 就 像 借助 ISA 将 程序 员 和 复杂 的 微 架 构 进行 隔离 一 样 。 

为 了 使 不 同 内 存 地 址 按照 不 同 规则 排序 ， 内 存 系统 中 需要 包含 一 些 针对 共享 内 存 访问 的 原 
子 性 支持 (不 只 是 满足 纯 一 致 性 )。 存 储 模 型 的 形式 化 描述 相当 繁琐 、 元 长 、 复 杂 且 不 直观 ， 
通常 情况 下 ， 不 依赖 于 对 load 和 store 访问 进行 同步 的 放松 存储 模型 可 以 用 图 7-27 这 样 的 简单 
硬件 模型 来 描述 。 在 这 个 简单 模型 中 ， 共 享 内 存 系统 具有 原子 性 ， 并 且 每 个 进程 〈 线 程 ) 都 
带 一 个 store 缓冲 (可 能 支持 前 递 机 制 ， 也 可 能 不 支持 )。 需 要 注意 的 是 ， 这 仅仅 是 一 个 模型 ， 
模型 中 的 store 缓冲 不 一 定 是 一 个 真正 的 store 缓冲 。 我 们 可 以 将 图 7-27 中 从 线程 中 发 出 的 一 串 
store 操作 看 成 是 store 流水 线 。 只 要 store 操作 对 线程 来 讲 仍然 是 私有 的 〈 即 其 他 线程 观察 不 到 


原子 性 cache 协 议 转换 





图 7-27“ 硬件 级 存储 模型 的 通用 描述 
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store 的 值 ) ， 其 对 应 的 传播 过 程 就 可 以 用 store 缓冲 来 建 模 。 比 如 ， 线程 私 有 的 Ll cache 可 以 是 
无 锁 的 ， 当 发 生 store 失效 时 ， 可 能 在 数据 块 返 回 之 前 就 在 cache 中 分 配 了 一 个 cache 行 ， 此 时 
store 就 全 局 完成 了 。 在 这 种 情况 下 ， 所 有 对 该 未 完成 数据 块 执行 的 store 操作 都 被 看 成 是 线程 
store 流水 线 的 一 部 分 ， 以 及 模型 store 缓冲 中 的 一 部 分 。 

本 地 store 流水 线 中 的 store 是 否 会 将 它们 的 值 前 递 给 接 下 来 的 load 操作 ， 这 对 性 能 和 正确 
性 都 有 影响 。 支 持 前 递 时 ，load 可 能 在 对 应 store 操作 全 局 完成 之 前 就 从 本 地 store 流水 线 中 返 
回 对 应 的 值 。 因 此 ， 在 所 有 共享 内 存 操作 组 成 的 全 局 序 中 ，load 会 越过 store。 通 常 对 所 有 内 存 
位 置 的 所 有 访问 无 法 形成 一 个 一 致 性 顺序 ， 因 为 大 多 数 执行 中 ， 纯 一 致 性 和 不 同 地 址 的 访问 顺 
序 之 间 都 会 产生 冲突 。 相 反 ， 如 果 不 支持 前 递 功 能 ，load 必须 先 等 待 前 面相 同 地 址 的 store 已 经 
在 模型 的 store 缓冲 中 完成 (这 意味 着 大 家 都 可 以 看 到 store 的 值 ) 之 后 ,才能 在 cache 中 执行 。 

从 硬件 的 角度 可 以 看 到 ， 图 7-27 硬件 模型 中 的 访 存 执行 必须 符合 每 个 线程 中 对 全 局 完成 
顺序 的 要 求 。 图 7-28a 中 给 出 了 这 些 顺 序 要 求 ， 需 要 确保 的 主要 是 4 种 顺序 : load-load ，load- 
store ，store-load ，store-store。 两 个 访问 之 间 的 箭头 表示 在 所 有 前 面 的 第 一 类 访问 已 经 全 局 完成 
之 前 ， 第 二 类 访问 不 能 发 射 到 cache。 例 如 ，store-to-load 顺序 表示 在 所 有 前 面 的 (按照 线程 序 
在 前 面 的 ) store 都 已 经 全 局 完成 之 前 ， 不 会 将 load 发 射 到 cache 中 执行 。 


a ) 顺序 一 致 性 


| load ] [Cstore | [store | 
b ) 支持 store-to-load 的 放松 模型 
图 7-28 以 硬件 为 中 心 的 存储 一 致 性 模型 中 需 确保 的 顺序 


定义 7. 11 (符合 存储 一 致 性 模型 ) ”如 果 给 定 架 构 下 的 所 有 可 能 的 执行 在 某 种 存储 一 臻 
性 模型 看 来 都 是 有 效 的 ， 那 么 我 们 称 这 种 架构 符合 该 存储 一 致 性 模型 。 
上 述 条 件 可 能 会 在 测试 过 程 中 用 到 ,不 过 ， 要 想 证 明 某 个 架构 符合 给 定 的 模型 ， 还 必须 对 
硬件 进行 约束 ， 以 便 找到 一 种 系统 方法 将 目标 系统 上 所 有 可 能 的 执行 过 程 都 映射 到 模型 上 。 常 
见 的 约束 条 件 是 要 求 cache/ 内 存 访问 满足 原子 性 。 比 如 ， 可 以 利用 定义 7.4 和 定义 7.8 来 实现 
访 存 的 原子 性 。 接 下 来 ,我 们 将 探讨 存储 一 致 性 模型 的 主要 特征 ， 这 跟 load 和 store 的 顺序 有 
关 。 主 要 考虑 两 类 模型 : 顺序 一 致 性 模型 和 支持 store-to-load 放松 的 模型 。 
顺序 一 致 性 \ 
在 顺序 一 致 性 模型 下 ， 所 有 访 存 操作 构成 的 全 局 序 也 必须 同时 满足 所 有 线程 内 部 的 线程 
序 ， 如 图 7-28a 所 示 。 前 面 我 们 基于 store 同步 性 在 例 7. 12 中 实现 了 优化 。 在 图 7-3 所 示 的 架 
构 中 ， 所 有 的 顺序 性 可 以 通过 如 下 方式 保证 : 
e load-store 和 load-load: load 操作 阻塞 在 访 存 流水 级 (ME)， 并且 在 load 值 返回 之 前 ， 
会 一 直 阻塞 住 流水 线 。 当 某 个 load 在 ME 流水 级 阻塞 时 ， 所 有 后 续 的 load 和 store 都 会 
被 阻塞 住 。 

e store-load: load 的 值 可 以 从 本 地 store 流水 线 中 返回 。 但 是 如 果 load 的 地 址 不 在 本 地 
store 流水 线 中 ， 则 load 必须 等 到 store 缓冲 中 前 面 所 有 的 store 都 已 经 在 cache 中 全 局 完 
成 后 才能 继续 执行 。 
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@ store-store，store 缓冲 中 的 store 操作 必须 以 FIFO 顺序 逐个 全 局 完成 。 由 于 store-store 顺 
序 的 约束 ， 不 能 对 store 缓冲 项 进行 合并 ， 除 非 合 并 的 两 个 store 之 间 没 有 任何 对 其 他 地 
址 的 store 操作 。 

顺序 一 致 性 中 的 store-load 顺序 约束 使 得 store 缓冲 几乎 发 挥 不 了 什么 作用 ， 而 store 缓冲 的 
高 效 利 用 对 流水 线 处 理 器 的 性 能 又 非常 关键 ， 因 此 ， 很 多 存储 一 致 性 模型 对 store 和 后 续 load 
之 间 的 顺序 约束 进行 了 放松 ， 如 图 7-28b 所 示 。 不 管 支 不 支持 前 递 机 制 ， 对 store-load 的 放松 都 
可 以 提高 store 缓冲 的 效率 。 比 如 ， 当 store 在 cache 中 失效 时 ， 随 后 的 load 可 以 继续 访问 
cache ， 而 此 时 前 面 的 store 仍然 在 等 待 。 

由 于 还 有 store-store 和 load-load 的 顺序 约束 ， 对 store-load 顺序 放松 之 后 的 系统 只 满足 如 下 
特征 : 线程 的 store 不 能 被 其 他 线程 以 不 同 顺序 观察 到 。 在 这 种 机 器 上 ， 某 些 用 于 保证 顺序 一 
致 性 的 代码 〈 比 如 使 用 二 进 制 标志 进行 点 对 点 通信 ) 还 能 够 正确 运行 ， 因 为 每 个 线程 的 store 
必须 被 其 他 线程 以 线程 序 的 方式 看 到 。 但 是 其 他 一 些 基于 顺序 一 致 性 系统 实现 的 代码 (如 
Dekker 算法 ) 就 无 法 正确 运行 了 ， 因 为 load 可 以 越过 前 面 的 store。 

不 支持 前 递 机 制 的 Store-to-load 放松 模型 

这 种 模型 中 没有 哪个 load 可 以 返回 一 个 非 GP 值 就 执行 完成 ， 模 型 的 基本 规则 如 下 : 

。 load 可 以 越过 本 地 store 流水 线 中 前 面 的 store， 只 要 它们 的 地 址 不 相同 ; 

e load 不 能 从 本 地 store 流水 线 (无 前 递 功能 ) 中 返回 值 ; 

。 存储 系统 (本 地 store 流水 线 之 后 的 部 分 ) 满足 store 原子 性 。 

上 述 存储 一 致 性 模型 满足 store 原子 性 ， 但 是 对 不 同 地 址 的 访 存 可 以 在 cache 中 乱 序 执 行 ， 这 
是 和 顺序 一 致 性 的 主要 区 别 之 一 。 这 种 模型 中 ，load 不 允许 绑 定 非 GP store 的 值 ， 所 有 试图 利用 
地 理 位 置 的 局 部 性 来 提前 返回 值 ( 在 值 对 应 的 store 全 局 完成 之 前 ) 的 优化 行为 都 是 不 允许 的 : 

e 不 允许 load 从 store 缓冲 中 返回 值 ; 

。 不 允许 针对 无 锁 cache 写 操作 的 优化 ; 

。 当 Ll 的 数据 块 发 生 了 失效 且 还 在 处 理 中 时 ， 不 允许 运行 在 同一 个 核 上 的 多 个 线程 之 间 


共享 Ll 中 的 数据 ; 
e 和 上 面 类 似 ， 当 存在 数据 块 失效 且 正 在 处 理 中 时 ， 不 允许 对 共享 L2 cache 中 的 值 进行 
共享 访问 。 


在 图 7-3 的 顺序 处 理 器 架构 中 ， 访 存 满足 store 原子 性 ， 因 此 load 返回 的 值 总 是 全 局 完成 
的 。 由 于 load 被 阻塞 ，load-load 和 load- store 顺序 性 也 就 可 以 自动 维护 。 为 了 保证 store-store 顺 
序 ，store 操作 必须 在 store 缓冲 中 以 FIFO 顺序 逐个 全 局 完成 。 

这 种 模型 在 IBM 机 器 中 得 到 采用 ， 比 如 卫 M370 指令 集 架 构 。 

与 顺序 一 致 性 的 区 别 ”为 了 说 明 与 顺序 一 致 性 的 区 别 ， 重 新 回 到 例 7. 10 ( Dek- 
ker 算法 中 的 执行 片段 ) ， 证 明 该 例子 符合 不 支持 前 递 的 store-load 放松 模型 。 


INIT: A=B=0 


TI Tg 
SS" (A)1 S2 (B)1 
L!(B)0 L? (A)O 


7-29 给 出 了 程序 的 执行 流 图 , 例 7.10 (图 7-23) 和 图 7-29 的 区 别 在 于 每 个 线程 中 store 
和 load 之 间 的 边 被 删 掉 了 ， 因 为 当 load 访问 的 是 不 同 地 址 时 ， 就 可 以 越过 前 面 的 store。 

顺序 一 致 性 模型 中 存在 的 环 在 这 里 已 经 没有 了 ， 因 此 所 有 访问 可 以 按照 一 致 性 方式 进行 排 
序 ， 如 图 7-29 中 所 示 。 该 结果 在 放松 的 存储 一 致 性 模型 下 是 完全 合法 的 ， 可 见 在 这 种 放松 模 
型 下 ，Dekker 算法 会 失败 ， 无 法 实现 锁 的 功能 。 < 
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Init: A=B=0 L2(A)0 S2(B)1 
图 7-29 不 支持 前 递 的 store-load 放松 模型 下 的 程序 执行 流 图 


通常 情况 下 ， 如 果 某 个 存储 模型 对 执行 顺序 的 限制 更 少 〈 即 “更 弱 " ) ， 那 么 合法 的 执行 
情况 就 越 多 。 例 如 ，Dekker 算法 的 所 有 执行 结果 在 放松 模型 下 都 是 正确 的 ， 但 是 在 顺序 一 致 性 
下 ， 有 一 种 执行 结果 就 是 错误 的 。 同 样 ， 如 果 程序 在 某 个 存储 模型 中 能 正确 运行 ， 那么 在 更 严 
格 的 存储 模型 中 ( 即 “ 更 强 ”) 也 一 定 能 正确 运行 ， 因 为 在 更 强 的 模型 中 ， 可 能 的 执行 结果 会 
变 少 ， 并 且 都 已 经 包含 在 更 弱 模 型 的 执行 结果 中 了 。 相 反 ， 为 某 种 特定 模型 编写 的 程序 如 果 放 
到 一 个 更 弱 的 模型 下 运行 ， 结 果 可 能 就 不 对 了 。 上 比如， 为 放松 内 存 模型 编写 的 程序 总 是 能 够 在 
顺序 一 致 性 模型 下 正确 运行 ， 但 是 为 顺序 一 致 性 模型 编写 的 程序 放 到 放松 模型 下 ， 可 能 运行 结 
果 就 会 有 问题 (例如 Dekker 算法 ) 。 

支持 前 递 机 制 的 store-to-load 放松 模型 

支持 前 递 和 不 支持 前 递 机 制 的 放松 模型 之 间 的 区 别 在 于 ， 支 持 前 递 功能 时 ，load 可 以 在 
store 值 还 不 是 GP 的 情况 下 就 从 线程 的 store 流水 线 中 返回 值 ， 因 此 也 违反 了 store 原子 性 ,但 
是 整个 系统 还 是 满足 一 致 性 的 。 

和 前 面 一 样 ， 每 个 线程 的 本 地 store 流水 线 之 后 的 存储 结构 必须 满足 store 原子 性 。 这 意味 
着 ， 每 当 store 对 一 个 其 他 线程 也 可 访问 的 地 址 进行 更 新 时 ， 这 个 更 新 操作 就 必须 是 原子 的 ， 
每 个 线程 的 load 可 以 从 它们 各 自 的 store 流水 线 中 返回 值 。 图 7-27 给 出 了 支持 前 递 的 store-load 
放松 模型 。 

因为 store 操作 不 是 原子 的 ， 支 持 前 递 机 制 放 松 模 型 下 的 合法 执行 过 程 可 能 无 法 形成 一 个 
包含 所 有 访 存 操作 的 全 局 一 致 序 ， 而 这 在 顺序 一 致 性 和 不 支持 前 递 的 放松 模型 下 都 是 可 以 的 。 
因此 ， 其 形式 化 模型 也 远 比 以 前 的 模型 更 复杂 。 和 顺序 一 致 性 的 做 法 类 似 ， 我 们 也 可 以 通过 一 
套 访 存 顺 序 规则 来 验证 执行 的 有 效 性 。 区 别 在 于 ， 由 于 load 操作 可 以 直接 从 本 地 store 中 返回 
值 并 完成 ， 因 此 ， 同 一 个 线程 内 部 的 store 和 依赖 其 的 load 之 间 不 进行 定 序 。 

支持 前 递 的 store-load 放松 模型 在 SUN 公司 的 Microsystem SPARC ISA 机 器 上 采用 ， 这 种 模 
型 也 常 称 为 全 存储 序 (TSO) ， 下 面 用 一 个 例子 来 进行 说 明 。 

store-load 放松 模型 中 支持 store 前 递 的 影响 ”我们 用 下 列 代 码 来 突出 store 前 递 的 
影响 : 


INIT: A=B=C=0 


型 T2 

Si(A)1 S2 (B)1 
Sr (GFL S2(C) 2 
It(C)1 L2(C) 2 
LL(B)0 L? (A)O 


支持 store 前 递 机 制 时 ， 这 两 个 线程 中 store C 和 load C 之 间 的 顺序 依赖 都 被 消除 了 。 通 过 
去 掉 这 两 个 顺序 上 的 依赖 ,就 消除 了 图 中 的 环 。 因 此 当 store 支持 前 递 时 ， 执 行 有 效 ， 而 当 
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store 不 支持 前 递 时 ， 执 行 无 效 。 我 们 仍然 可 以 如 图 7-30 所 示 来 构造 一 个 全 局 序 。 由 于 对 store 
前 递 的 支持 ， 模 型 将 违反 线程 序 ， 但 是 根据 支持 store 前 递 模型 中 的 规则 ， 所 有 访 存 的 整体 顺 
序 仍 然 是 有 效 的 。 并 且 支 持 store 前 递 的 模型 在 整体 上 仍然 满足 ( 纯 ) 一 致 性 。 
ABCEO ge 
,0. t.0. i 
有 |to. 








S2(C)2 


-一 也 
隐 含 的 规则 
L2(C)2 
to. 
LI(B)0 ~L2(A)O 
LIC)1 LIB)0 S1(A)1 Si(C)1 
Init: A=B=C=0 LO2 “(Ajo S2(B)1 Ss2(C)2 


图 7-30 支持 前 递 的 store-load 放松 模型 下 的 程序 执行 流 图 


这 个 例子 也 反映 了 7.3.4 节 提 到 的 纯 一 致 性 问题 ， 即 纯 一 致 性 不 能 和 其 他 顺序 进行 组 合 。 
通常 来 讲 ， 在 纯 一 致 性 中 增加 了 其 他 顺序 约束 (例如 load-load) 后 ， 并 不 总 是 形成 包含 所 有 访 
存 操作 的 全 局 一 致 序 。 也 正 是 由 于 这 样 的 全 局 一 致 序 并 不 总 是 存在 的 ， 对 支持 store 前 递 模型 
的 证 明 也 比 其 他 模型 更 加 困难 。 不 过 ,测试 程序 可 以 为 执行 过 程 构 造 一 个 数据 流 图 ， 迭 代 地 应 
用 模型 规则 并 验证 图 中 不 存在 环 。 而 形式 化 的 验证 方法 由 于 依赖 于 全 局 序 和 人 工 验 证 ， 操 作 起 
来 就 要 复杂 得 多 。 

大 家 可 能 想 知 道 除 了 放松 store-load 之 外 ， 是 否 还 可 以 通过 放松 其 他 顺序 性 来 提高 架构 性 
能 呢 ? 有 时 候 ， 保 证 load- load 和 load- store 的 顺序 ， 是 为 了 确保 线程 内 的 依赖 关系 (地址 或 
值 ) 。 比 如 ，load 的 地 址 可 能 依赖 于 一 个 先前 的 load， 或 者 store 的 地 址 /数据 可 能 依赖 于 先前 的 
某 个 load。 如 果 我 们 获得 一 个 所 有 访 存 的 全 局 序 ， 并且 其 中 某 个 load 排 在 相同 线程 中 依赖 它 的 
load 或 者 store 之 后 ， 那 么 这 将 违反 线程 内 的 依赖 关系 。load-load 和 load- store 顺序 维护 的 主要 
开销 在 于 ， 没 有 在 store 缓冲 中 命中 的 load 操作 必须 在 全 局 完成 之 后 才能 返回 值 。 最 后 一 个 顺 
序 是 store-store， 由 于 store 缓冲 的 引入 ，store 操作 已 经 不 在 关键 路 径 上 了 ， 唯 一 的 问题 是 当 
store 缓冲 满 时 ， 可 能 会 导致 处 理 器 阻塞 。 在 Sun 公司 的 PSO ( Partial Store Order) 存储 一 致 性 
模型 (本 书 中 将 不 对 PSO 进行 介绍 ) ， 以 及 依赖 于 同步 的 存储 一 致 性 模型 中 ， 人 允许 对 store-store 
顺序 进行 放松 。 这 一 放松 使 得 store 缓冲 中 的 store 可 以 乱 序 并 发 地 传播 ， 因 此 在 某 些 情况 下 ， 
可 能 会 有 性 能 的 提升 ， 上 述 情况 导致 了 store-store 的 顺序 性 被 打破 。 

Sun Microsystem 中 的 放松 存储 序 

就 像 所 有 单 处 理 器 一 样 ， 在 放松 存储 顺序 (Relaxed Memory Order，RMO) 中 ,我 们 也 只 
确保 线程 内 的 一 致 性 。RMO 不 会 引入 任何 线程 间 的 顺序 约束 ， 不过， 指令 系统 可 以 通过 软件 
控制 的 MEMBAR 指令 来 确保 全 局 的 访 存 序 ， 同 时 向 程序 员 和 编译 器 暴露 出 充分 的 访 存 并 行 性 。 
编译 器 将 MEMBAR 指令 插入 到 代码 中 的 适当 位 置 ， 以 实现 图 7-28 中 提 到 的 4 种 顺序 性 约束 : 
load-load ,load- store ,store- storet 和 store-load 。 

MEMBAR 指令 在 功能 上 类 似 于 线程 中 内 存 访 问 的 栅栏 ， 它 带 有 一 个 4bit 的 操作 数 ， 每 一 
位 代表 下 面 的 4 种 顺序 之 一 : load-load ，load-store，store-load 和 store-store。 通 过 在 所 有 的 访 存 
操作 对 之 间 插 入 操作 数 为 1111 的 MEMBAR 指令 ,编译 器 可 以 确保 硬件 以 线程 序 全 局 完成 所 有 
的 内 存 访问 ， 从 而 实现 顺序 一 致 性 ， 其 代价 是 代码 膨胀 。RMO 是 一 个 非常 灵活 的 模型 ， 访 存 
操作 的 顺序 性 〈 实 际 的 存储 一 致 性 模型 ) 是 完全 由 软件 来 控制 的 。 a 
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(全 在 代码 中 添加 MEMBAR 指令 “在 下 面 的 代码 中 ， 如 何 增加 MEMBAR 指令 以 支持 


TSO 模型 ; 
T1 T2 T3 
A=1 R1=A R2=B 


B=1 R3=A 


在 T2 中 ,我 们 必须 保证 全 局 的 load-store 顺序 ， 在 T3 中 我 们 必须 保证 全 局 的 load-load 顺 
序 。 因 此 ， 新 的 代码 如 下 : 


EE 于 人 2 T3 

A=1 Rl1=A R2=B 
MEMBAR 0100 MEMBAR 1000 
B=1 R3=A 


即使 store 向 load 前 递 值 ， 即 使 load 可 以 乱 序 执行 ， 即 使 cache 以 下 的 存储 层次 不 满足 原子 
性 ， 上 面 这 段 代码 也 只 可 能 产生 符合 TSO 的 结果 (当然 ， 也 符合 顺序 一 致 性 ) 。T2 中 的 MEM- 
BAR 指令 确保 了 在 store 发 射 到 cache 之 前 ， 前 面 的 load 已 经 全 局 完成 ，T3 中 的 MEMBAR 确保 
了 第 一 条 load 在 第 二 条 load 执行 之 前 就 已 经 全 局 完成 。 a 

需要 注意 的 是 ，MEMBAR 是 一 个 本 地 的 线程 内 的 访 存 栅栏 ， 它 不 同 于 barrier 同步 ， 后 者 
是 一 个 全 局 的 、 线 程 间 的 同步 机 制 ， 可 以 影响 多 个 线程 的 执行 顺序 。 


7. 6. 2 依赖 同步 的 放松 模型 


目前 为 止 我 们 所 探讨 的 所 有 放松 存储 模型 都 是 基于 硬件 实现 效率 和 简化 来 考虑 的 (主要 是 
通过 放松 store load 顺序 ) 而 与 程序 员 的 期 望 无 关 。 然 而 ， 也 还 存在 一 些 其 他 的 模型 ， 相 比 于 
顺序 一 致 性 ， 对 硬件 的 限制 会 更 少 ， 这 些 模型 依赖 于 同步 操作 的 语义 。 

无 论 是 否 存在 多 个 cache 副本 ， 也 无 论 是 什么 存储 模式 下 ， 我 们 都 需要 同步 操作 。 当 共享 
变量 被 多 个 线程 读 写 时 ， 需 要 通过 临界 区 进行 保护 ， 这 可 以 通过 锁 或 bamier 来 实现 。 在 同步 
点 ， 不 同 线程 彼此 交换 各 自 的 执行 位 置信 息 。 通 常 ， 同 步 可 以 用 RMW 原子 指令 来 实现 。 如 果 
使 用 对 共享 数据 的 load 和 store 来 同步 (例如 ，Dekker 算法 ) ， 那 么 程序 员 应 该 知道 这 一 特殊 功 
能 ， 他 们 需要 将 这 些 特殊 共享 数据 声明 为 同步 变量 ， 这 样 硬件 可 以 将 它们 与 其 他 共享 变量 进行 
区 分 ， 硬 件 只 需要 保证 同步 变量 访问 时 的 正确 交错 顺序 ， 而 不 需要 考虑 所 有 共享 变量 访问 的 
交错 。 

为 了 更 好 地 说 明 这 一 点 ， 给 出 如 下 的 简单 程序 ， 通 过 FLAG 进行 数据 同步 : 


INIT : A=FLAG=0 
declare SYNC FLAG 


T1 WD 

A=1 

FLAG=1 /release 
while (FLAG==0) /acquire 
print A 


在 这 段 代 码 中 ，A 是 普通 的 共享 变量 ，FLAG 是 用 于 同步 的 特殊 共享 变量 ， 并 且 已 声明 为 
同步 变量 。 大 部 分 共享 变量 都 是 非 同步 变量 ， 软 件 可 以 传递 此 信息 给 硬件 ， 以 便 硬 件 只 将 同步 
变量 看 作 栅 栏 〈( 就 像 顺 序 一 致 性 中 的 所 有 访 存 操作 ,或 Sun 的 RMO 中 的 MEMBAR 指令 )。 使 
用 RMW 指令 (比如 T&S 和 swap) 访问 的 共享 变量 位 置 都 自动 被 看 成 是 同步 变量 。 

再 看 下 面 的 例子 ， 其 结果 的 正确 性 依赖 于 顺序 一 致 性 : 
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INIT: A=B=0 

E 了 2 
A=1 R1=B 
B=2 R2=A 


R3=R1+R2 


”在 顺序 一 致 性 的 情况 下 ，R3 寄存 器 可 能 的 值 是 0，1 或 者 3。 在 没有 对 访 存 操作 确保 全 局 
序 的 RMO 系统 中 ,硬件 有 可 能 在 将 store B 传播 到 T2 之 后 才 完 成 store A 的 传播 ， 因 此 R3 得 到 
的 值 是 2。 为 了 避免 这 种 结果 ， 可 以 将 这 部 分 代码 放 到 临界 区 内 : 


INIT A=B=0 it 
declare lock L 


名 工 12 

Lock (L) Lock (L) 
A=1 R1=B 

B=2 R2=A 
Unlock (L) Unlock (L) 


R3=R1+R2 


临界 区 的 存在 使 得 两 个 线程 不 能 同时 执行 临界 区 内 代码 。 因 此 ，Tl 和 了 T2 对 A 和 B 的 访问 
将 永远 不 能 并 发 执行 ， 所 有 可 能 的 执行 都 将 满足 顺序 一 致 性 。 事 实 上 ， 即 使 store, 不 具有 原子 
性 ， 临 界 区 内 指令 的 执行 效果 看 起 来 也 是 原子 的 。 唯 一 的 可 能 结果 是 R3 =0 或 3， 这 两 个 结果 
都 符合 顺序 一 致 性 。 

为 了 确保 上 述 代 码 的 正确 执行 ， 人 硬件 必须 区 分 对 锁 变 量 L 的 访问 以 及 对 A 和 B 的 访问 。 线 
程 Tl 中 ， 并 不 要 求 在 执行 store B 之 前 一 定 要 全 局 完成 store A， 然 而 ， 当 执行 到 访问 工时 ， 之 
前 所 有 的 访 存 操作 必须 都 已 经 全 局 完成 。 

放松 存储 一 致 性 模型 将 同步 变量 访问 看 作 栅 栏 操作 ,而 对 其 他 变量 的 访问 没有 顺序 要 求 ， 
这 种 模型 也 被 为 弱 顺 序 模型 。( 相对 于 强 顺序 模型 而 言 ， 强 顺序 模型 会 在 硬件 上 对 所 有 访 存 操 
作 进 行 排序 。) 

弱 顺 序 模型 ( 弱 一 致 性 模型 ) 

线程 包含 临界 区 和 非 临 界 区 代码 段 ， 在 非 临 界 区 代码 段 中 ， 只 可 以 访问 私有 变量 或 只 ! 读 共 
享 变量 。 在 临界 区 代码 段 中 ， 所 有 共享 位 置 互 斥 访问 。 因 此 ， 对 相同 地 址 的 store 操作 可 以 通 
过 由 lock 和 unlock 构成 的 临界 区 来 进行 排序 。 

图 7-31 是 由 3 个 线程 构成 的 一 个 程序 片段 。 该 程序 有 两 个 关键 部 分 : 一 个 是 对 变量 X 访 
问 的 保护 ， 另 一 个 是 对 变量 B 访问 的 保护 ， 其 中 变量 B 是 一 个 barrier 计数 器 。X 和 B 都 是 普通 
共享 变量 ， 更 新 操作 受到 临界 区 的 保护 。 读 取 B 的 while 循环 没有 必要 放 在 临界 区 内 ， 因 为 B 
是 单调 增加 的 ， 并 且 每 个 线程 只 有 在 B 达到 最 大 值 时 才能 读 取 到 B。 图 中 的 箭头 显示 了 弱 顺 序 
模型 中 引入 的 全 局 序 。 

在 弱 顺 序 一 致 性 模型 中 ， 线 程 中 的 RMW 指令 (lock 操作 ) 和 swap 指令 (或 带 标记 的 
store 指令 ，unlock 操作 ) 作为 每 个 线程 代码 操作 中 的 栅栏 。unlock 操作 不 能 像 常 规 store 一 
样 实现 ， 需 要 能 够 被 硬件 识别 出 。 一 些 其 他 共享 变量 也 可 以 声明 为 同步 变量 ， 比 如 FLAG 可 
以 用 于 变量 通信 的 同步 ， 或 者 是 Dekker 算法 中 的 标志 同步 。 对 这 些 同步 变量 的 访问 统称 为 
同步 访问 。 对 于 参数 为 1111 的 MEMBAR 指令 ， 所 有 之 前 的 访 存 操作 必须 在 同步 访问 发 射 之 
前 就 全 局 完成 ， 并 且 在 同步 操作 全 局 完成 之 前 ,， 后续 的 访 存 操作 不 能 发 射 到 内 存 。 因 为 
RMW 指令 同时 包含 load 和 store， 我 们 需要 对 “全 局 完成 ”的 定义 进行 补充 ， 以 便 适 用 于 
RMW 访问 。 
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INIT: A=2; B=0; X=0; Lb=Lx=0 
Th 





T2 Ts 
二 C=D*E 
lock(Lx) ek Y=2*Y 
| x=x+2; | Z=D+2 
unlock(Lx) 
Lv es a 
i 
| lock(Lx) | 
一 过 一 X=A+X 
locih) | uniock(Lx) | 
B=B+1 这 J 
unlock(Lb) 
上 oktb 2 
OC 
| B=B+1 | 
while(B<3); gp 
while(B<3); 
A unlock(Lb) ， 
while(B<3); 


| 图 7-31 支持 同步 的 多 线程 程序 示例 


定义 7. 12 (RMW 访问 全 局 完成 ) 当 RMW 访问 中 的 load 和 store 都 已 经 全 局 完成 时 ， 
我 们 称 对 某 个 内 存 位 置 的 RMW 访问 已 经 全 局 完成 。 

RMW 访问 必须 满足 原子 性 ， 也 就 是 说 ,在 RMW 的 load 和 store 之 间 ， 不 允许 有 其 他 线程 
对 该 内 存 位 置 进 行 更 新 。 基 于 无 效 策略 的 cache 协议 更 有 助 于 保证 RMW 的 原子 性 ， 如 果 cache 
协议 把 RMW 访问 看 成 一 个 store 操作 ， 那 么 必须 先 获得 数据 块 的 一 个 已 修改 的 副本 (唯一 副 
本 ) ， 然 后 load 和 store 可 以 在 cache 中 原子 执行 ， 因 为 没有 其 他 线程 可 以 访问 到 该 副本 ， 在 
RMW 访问 完成 之 前 ， 其 他 线程 的 访问 请 求 都 会 被 拒绝 。 

在 对 全 局 完成 的 定义 中 ， 全 局 store 顺序 不 一 定 要 通过 store 原子 性 或 者 一 致 性 来 实现 ， 而 
是 借助 临界 区 和 同步 访问 来 完成 。 对 可 修改 共享 变量 的 访问 代码 可 以 通过 同步 访问 进行 隔离 。 
在 两 次 同步 访问 之 间 ， 访 存 操作 可 以 按照 任意 顺序 发 射 和 完成 ， 只 要 能 够 满足 线程 内 的 访 存 依 
赖 关系 即 可 。 

图 7-32 给 出 了 弱 顺 序 模型 下 确保 的 顺序 性 ， 图 中 的 “Op” 是 load 或 store, “Sync” 是 指 
对 任何 同步 变量 的 访问 ， 包 括 锁 ， 在 普通 的 load 和 store 之 间 没 有 顺序 要 求 。 


yr 1 
| 


图 7-32 ” 弱 顺 序 模 型 下 的 序 要 求 


在 图 7-3 的 顺序 微 架 构 中 ， 所 有 指令 〈 包 括 同步 ) 都 按照 线程 序 执行 。 在 弱 顺 序 模 型 系统 
中 ，store 被 插入 到 store 缓冲 中 ，load 可 以 在 store 完成 之 前 越过 其 执行 ， 并 且 可 以 用 store 缓冲 
中 的 值 进行 前 递 。 上 述 优化 已 经 在 TSO 模型 中 采用 ， 弱 顺序 模型 的 另 一 个 优化 方法 是 ，store 
缓冲 中 的 普通 store 操作 可 以 按 任意 顺序 并 行 执行 (无 store-store 的 顺序 要 求 ) 。 

对 同步 变量 (不 管 是 lo0ad、store 或 RMW) 的 访问 则 必须 区 别 对待 。 它 们 必须 在 流水 线 的 
访 存 阶段 中 等 待 ， 直 到 store buffer 中 的 所 有 store 都 已 经 全 局 完成 。 此 外 ， 同步 操作 之 前 的 所 有 


288 务 7 章 


load 操作 也 必须 已 经 全 局 完成 。 因 此 ， 需 要 提供 特定 的 硬件 支持 ， 以 检测 之 前 的 所 有 访问 是 否 
已 经 全 局 完成 ， 并 对 已 全 局 完成 的 访问 进行 倒 计 数 ， 直 到 计数 器 为 0， 然 后 才能 执行 对 同步 变 
量 的 访问 。 同 步 操作 在 内 存 系统 中 的 执行 和 完成 是 原子 性 的 (这 确保 了 Op- Syne 的 顺序 性 ) 。 
与 此 同时 ， 流 水 线 中 的 所 有 后 续 指 令 均 被 阻塞 ， 这 样 它 们 无 法 越过 线程 序 中 人 靠 前 的 同步 访问 
(这 确保 了 Sync-Op 和 Sync-Synec 的 顺序 性 ) 。 

释放 一 致 性 

释放 一 致 性 是 弱 顺 序 模型 的 一 种 细 化 ， 在 释放 一 致 性 中 ,将 同步 访问 进一步 分 为 获取 
(acquire) 锁 的 同步 访问 和 释放 (release) 锁 的 同步 访问 。 当 线程 成 功 获取 到 锁 时 (类似 于 打 
开 临 界 区 ) ， 就 可 以 自由 访问 临界 区 内 的 共享 变量 ， 因 为 它 有 单独 访问 的 权限 。 因 此 ， 在 ac- 
duire 全 局 完成 之 前 ,临界 区 内 的 访问 (比如 load 和 store) 不 能 越过 它 。 此 外 ， 当 线程 释放 了 
当前 临界 区 的 锁 时 ， 表 示 线 程 将 对 共享 变量 的 访问 权限 释放 给 了 其 他 线程 ， 即 其 他 线程 将 有 权 
修改 共享 变量 。 因 此 ， 临 界 区 内 的 所 有 load 和 store 必须 在 release 操作 执行 之 前 就 全 局 完成 ， 
以 避免 和 临界 区 的 其 他 执行 互相 有 影响。 释放 一 致 性 通过 区 分 acquire 和 release 之 间 的 不 同 对 弱 
顺序 模型 做 了 进一步 的 放松 。 在 弱 顺序 模型 中 ， 同 步 变量 的 栅栏 作用 是 双向 的 ， 即 同时 限制 了 
同步 操作 之 前 以 及 之 后 的 访问 顺序 。 而 在 释放 一 致 性 中 ,栅栏 作用 是 单 向 的 acquire 只 和 之 后 
的 访问 进行 同步 ， 而 release 只 和 之 前 的 访问 同步 。 

释放 一 致 性 对 顺序 性 的 要 求 如 图 7-33 所 示 ， 普 通 的 load 和 store 之 间 没 有 顺序 性 要 求 。 和 
弱 顺序 模型 一 样 ， 所 有 的 同步 访问 必须 在 线程 间 满 足 顺序 一 致 性 。 这 也 是 出 于 编程 中 临界 区 模 
型 的 要 求 。 


[ae [Cw] Cr] [Case] [ae ] Ceease] 
[op |] Deesase] Ca] Ceease | [Ceease | [acqure | 
图 7-33 “释放 一 致 性 中 的 顺序 性 


相 比 弱 顺 序 模型 ， 释 放 一 致 性 可 以 暴露 更 多 的 访 存 并 发 性 ， 还 以 图 7-31 中 线程 12 的 代码 
为 例 ， 图 7-34 给 出 了 两 者 在 访 存 并 行 性 方面 的 区 别 。 需 要 注意 的 是 ， 在 释放 一 致 性 中 ，acquire 
(lock) 以 及 临界 区 内 的 操作 ， 可 以 和 acquire 之 前 的 代码 同时 执行 (假设 不 存在 依赖 关系 )， 
同样 ， 在 释放 一 致 性 中 ,临界 区 内 的 代码 以 及 release (unlock) 操作 ， 也 可 以 和 release 之 后 的 
代码 同时 执行 (也 假定 不 存在 依赖 关系 )。 这 些 潜 在 的 并 行 性 在 弱 顺 序 模型 中 是 没有 的 。 

在 图 7-3 的 顺序 微 架构 中 ,这 种 额外 的 并 行 性 主要 意味 着 release 操作 可 以 按照 store 顺序 
缓存 在 store 缓冲 中 ， 因 此 ， 当 临界 区 内 的 store 还 在 执行 时 ， 可 以 允许 后 续 的 load 和 store 先 完 
成 。release 在 发 送 到 store 缓冲 之 前 ， 必 须 确保 所 有 之 前 的 load 都 已 经 全 局 完成 。 而 普通 store 
操作 可 以 在 store 缓冲 中 以 任意 顺序 并 行 执行 -( 甚 至 可 以 跨 过 release) 。store 缓冲 中 的 release 需 
要 等 到 之 前 所 有 的 store 和 release 都 已 经 完成 后 才能 在 cache 中 完成 ， 而 普通 load 操作 不 需要 等 、 
待 store 缓冲 中 的 普通 store 或 release， 可 以 直接 进行 值 的 前 递 。 

acquire 操作 必须 先 在 访 存 流水 级 中 全 局 完成 ,后续 的 其 他 访 存 操作 才能 完成 (确保 ac- 
quire-op，acquire-acquire ，acquire-release 的 顺序 性 ) 。 这 在 硬件 上 是 可 以 自动 保证 的 ， 因 为 ac- 
quire 会 阻塞 流水 线 ， 直 到 全 局 完成 。 此 外 ，aequire 必须 等 待 store 缓冲 中 的 所 有 release 先 全 局 
完成 (release-acquire 顺序 性 要 求 ), 但 是 不 需要 等 待 普通 store 操作 。 

虽然 释放 一 致 性 做 了 进一步 放松 ， 相 比 于 弱 顺 序 模型 在 硬件 层面 具有 更 高 的 效率 ， 但 是 释 
放 一 致 性 要 求 在 编程 时 对 acquire 和 release 这 些 同步 变量 的 访问 进行 标记 ， 而 在 弱 顺 序 模型 中 ， 
只 要 求 对 所 有 的 同步 变量 进行 声明 即 可 。 
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C=D:*E 
C=C+K 

C=D’*E 
lock{Lx) C=C+K 


lock(Lx) 
X=A+X 
.A X=A+X 
} unlock(Lx) 
unlock(Lb) B=B+1 
while(B<3); We unlock(Lb) 
<wait> 
a ) 弱 顺 序 模型 b ) 释放 一 致 性 


图 7-34 线程 人 2 执行 过 程 中 的 并 行 性 


7.7 推测 执行 中 的 存储 序 违 反 


目前 为 止 ， 我 们 主要 考虑 的 是 顺序 流水 线 处 理 器 结构 〈 例 如 图 7-3 中 的 流水 线 ) ， 然 而 在 
最 新 的 处 理 器 中 ，load 通常 可 以 推测 乱 序 执行 。 在 支持 推测 乱 序 执行 的 处 理 器 中 ， 可 能 同时 有 
几 十 、 甚 至 上 百 条 指令 在 执行 。 指 令 按照 线程 序 进行 取 指 、 译 码 、 分 发 ， 然 后 ， 一 旦 输入 操作 
数 准备 好 ， 就 立即 以 数据 流 的 顺序 开始 执行 。 当 执行 结束 时 ， 又 重新 按照 线程 序 在 重 排序 缓存 
(ROB) 中 等 待 ， 直 到 轮 到 它们 更 新 寄存 器 或 者 内 存 时 ， 再 将 指令 退出 。 在 指令 分 发 和 退出 之 
间 ， 指 令 推 测 执行 ， 当 发 现 之 前 的 分 支 指令 预测 错误 ， 或 者 之 前 指令 出 现 异 常 时 可 以 进行 回 
滚 。 支 持 推测 乱 序 执行 的 处 理 器 具有 回 滚 所 需 的 硬件 结构 ， 通 常情 况 下 ,我 们 使 用 这 些 硬 件 结 
构 来 预测 某 些 特定 事件 会 不 会 发 生 ， 然 后 指令 根据 预测 结果 进行 推测 执行 ， 当 检测 到 预测 错误 
时 ， 就 对 执行 过 程 进行 回 滚 。 显 然 ， 只 有 当 预 测 准确 性 非常 高 时 ， 上 述 策略 才能 提高 性 能 ， 因 
为 回 滚 执行 会 造成 很 大 的 开销 。 


7.7.1 乱 序 执行 处 理 器 中 的 保守 存储 模型 


乍 看 起 来 ， 在 推测 的 乱 序 执行 中 ， 似 乎 很 难 对 访 存 操作 进行 任何 形式 的 定 序 , 实际 上 ， 在 
推测 乱 序 执行 的 处 理 器 中 ，load 和 store 操作 只 有 在 准备 好 提交 和 退出 时 才 算 是 全 局 完成 。 尽 
管 load 可 以 在 指令 退出 前 先 返 回 推测 值 ， 并 且 可 能 被 后 续 指 令 继 续 使 用 , 但 是 一 旦 检测 到 冲突 
( 即 之 前 的 推测 是 错误 的 ) ， 返 回 的 推测 值 还 可 以 被 撤回 ; 因此 load 要 一 直到 达 ROB 顶部 ,并 
且 值 不 可 撤回 时 ，load 值 才 算 真正 被 锁定 了 。 而 对 于 store 和 同步 指令 , 它们 也 只 有 在 到 达 
ROB 顶部 时 才能 更 新 内 存 ， 因 此 ， 也 需要 等 到 准备 好 退出 时 才 算 全 局 完成 。 

确保 符合 存储 模型 的 一 种 保守 方法 是 等 到 load 到 达 ROB 顶部 时 才 人 允许 返回 值 。 不过， 这 
种 方法 会 严重 影响 处 理 器 的 性 能 ， 导 致 处 理 器 的 访 存 开销 很 大 ， 并且 load 操作 之 间 的 指令 并 行 
度 非 常 有 限 。 

要 提高 这 种 保守 方案 的 性 能 ， 处 理 器 可 以 在 load 和 store 的 地 址 已 知 的 时 候 ， 就 立刻 将 对 
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应 的 内 存 块 预 取 到 L1 cache 中 。 这 种 非 约 束 性 的 (non-binding) 预 取 机 制 受到 一 致 性 协议 的 限 
制 ,， 并且 在 出 现 异常 时 会 将 预 取 数 据 丢 弃 ， 因此， 不 会 影响 存储 模型 的 正确 性 。 在 效果 上 ， 至 
少 这 种 预 取 可 以 帮助 隐藏 load 或 store 失效 时 的 处 理 延 迟 。 当 访 存 指令 到 达 ROB 顶部 时 ， 数 据 
块 预 取 操作 可 能 已 经 完成 ， 数 据 已 经 按 正确 状态 存放 在 cache 中 ， 此 时 cache 访问 命中 并 且 不 
需要 对 ROB 进行 回 退 。 ; 

一 种 更 加 激进 的 办 法 是 利用 硬件 支持 来 提前 推测 执行 load 并 使 用 load 的 值 ， 如 果 检 测 到 
该 推测 执行 违反 了 存储 一 致 性 模型 ， 就 进行 回 深 。 由 于 违反 存储 一 致 性 模型 的 情况 很 少 出 现 ， 
因此 这 种 方法 效率 很 高 。 


7.7.2 推测 执行 中 的 存储 序 违反 


在 推测 乱 序 执行 的 处 理 器 中 ， 直 到 指令 提交 ， 并 将 结果 写 回 存储 器 时 ， 该 指令 才 真 正 生 
效 。load 操作 不 会 影响 其 他 线程 的 执行 ， 因 此 load 在 cache 中 的 推测 执行 效果 也 是 本 地 的 ， 不 
会 影响 到 其 他 的 线程 。 与 之 相反 ，store 和 RMW 直到 提交 并 且 不 再 处 于 推测 执行 状态 时 (上 比 
如 ， 到 达 ROB 顶部 ) ， 才 能 真正 改变 内 存 的 状态 。 

假定 在 线程 序 中 ， 某 个 load 操作 之 前 有 一 个 内 存 访问 〈load 、store 或 RMW) ， 并 且 存 储 模 
型 要 求 确 保 这 两 者 之 间 的 顺序 性 。 处 理 器 可 以 在 前 面 的 访 存 操作 发 射 到 内 存 之 前 就 先 发 射 ， 并 
且 推测 执行 后 面 的 load 操作 ，load 返回 的 推测 值 可 以 被 后 续 的 推测 指令 继续 使 用 。 此 后 ， 当 
load 准备 退出 ， 并 且 之 前 所 有 的 访 存 操 作 都 已 经 退出 时 ，load 返回 的 推测 值 需要 和 重新 访问 
cache 获取 到 的 当前 值 进行 比较 ， 如 果 值 不 相同 ， 那 么 必须 回 深 到 load 处 ， 如果 值 相同 ， 那 么 
针对 load 的 推测 是 有 效 的 ， 并且 load 在 cache 副本 中 全 局 完成 。 这 个 结果 和 load 保守 执行 时 
(load 到 达 ROB 顶部 再 处 理 ) 的 结果 是 一 致 的 。 这 种 方法 的 问题 在 于 ， 每 次 load 操作 都 需要 对 
cache 访问 两 次 。 

另 一 种 用 来 检测 违反 存储 序 的 安全 高 效 的 解决 方案 是 借助 cache 和 cache 一 致 性 协议 。load 
操作 尽 可 能 快 地 推测 执行 并 返回 值 ， 同 时 ， 包 含 该 内 存 位 置 的 数据 块 被 读 人 处 理 器 节点 的 
cache 层次 结构 中 (假定 之 前 不 在 cache 中 ) 。 如 果 有 某 个 远程 处 理 器 试图 修改 load 返回 来 的 数 
据 ， 就 会 往 该 处 理 器 节点 发 送 一 个 通知 〈 更 新 或 无 效 ) 消息 。 该 通知 消息 可 以 通过 监听 load/ 
store 队列 来 检查 load 操作 是 否 已 经 推测 完成 。 如 果 已 完成 ，load 和 所 有 后 续 的 推测 指令 的 执行 
都 必须 进行 回 深 (类 似 分 支 预测 错 误 ) ， 因 为 推测 执行 的 过 程 可 能 会 违反 存储 模型 ， 并 且 load 
返回 的 值 可 能 已 经 影响 到 了 后 续 的 指令 。 当 load 已 经 被 推测 执行 ， 并 且 在 没有 撤回 的 情况 下 到 
达 ROB 顶部 ,那么 该 load 操作 不 需要 访问 cache 就 可 以 全 局 完成 ， 然 后 退出 。 在 这 个 机 制 下 ， 
在 load 推测 执行 的 整个 过 程 中 ， 包 含 load 值 的 数据 块 必须 始终 在 本 地 cache 层次 中 ， 以 便 仍 然 
遵守 一 致 性 协议 。 在 这 段 时 间 内 ， 如 果 cache 必须 将 该 数据 块 蔡 换 出 节点 ， 那 么 cache 结构 必 
须 触 发 一 个 违规 信号 。 当 然 ， 上 述 解 决 方案 在 不 含 cache 的 系统 或 者 含有 cache 但 是 没有 或 者 
只 有 部 分 硬件 一 致 性 支持 的 系统 中 无 法 工作 。 

要 判断 推测 执行 是 否 违反 存储 模型 约定 ， 一 种 方法 是 分 别 记录 load 推测 执行 的 时 间 以 及 
load 操作 退出 的 时 间 s 如 果 在 这 两 个 时 间 点 之 间 没 有 出 现 改 变 load 值 的 远程 事件 ， 则 后 续 依 赖 
于 load 值 的 指令 所 获得 的 操作 数 就 是 正确 的 ， 执 行 过 程 也 是 有 效 的 ， 因 此 load 操作 可 以 安全 退 
出 。 相 反 ， 如 果 两 个 时 间 点 之 间 发 生 了 改变 load 值 的 远程 事件 ， 那 么 load 的 值 必须 被 撤回 ， 
load 后 面 的 指令 也 必须 进行 回 滚 ， 这 一 机制 称 为 load 值 撤回 (load value recall) 。 接 下 来 ,我 们 
利用 这 种 机 制 来 保证 带 推测 执行 的 乱 序 结构 中 的 存储 一 致 性 。 

顺序 一 致 性 中 的 推测 执行 

在 推测 顺序 一 致 性 中 ， 图 '7-28a 中 的 所 有 顺序 约束 必须 进行 全 局 维护 ， 下 面 我 们 逐个 
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说 明 。 

load- store 顺序 可 以 自动 维护 ， 因 为 store 必须 到 达 ROB 顶部 时 才能 在 cache 中 完成 ， 这 时 
之 前 所 有 的 load 都 已 经 全 局 完成 并 且 退 出 。 

load-load 顺序 可 以 通过 load 值 撤回 来 维护 。load 操作 一 旦 地 址 确定 后 就 会 推测 执行 ， 如 果 
load 在 提交 之 前 被 撤回 ， 表 明 可 能 相对 线程 序 中 之 前 的 load 出 现 了 违反 存储 模型 的 情况 。 

store 以 线程 序 在 ROB 顶部 退出 ， 并 插入 到 先进 先 出 (FIFO) 结构 的 store 缓冲 中 ， 然 后 
store 操作 按照 FIFO 顺序 在 store 缓冲 中 逐个 全 局 完成 。 这 一 策略 保证 了 store-store 顺序 ， 因 为 
store 操作 需要 确保 之 前 所 有 的 store 都 按照 线程 序 全 局 完成 后 才能 发 射 。 

为 了 确保 store-load 顺序 ， 我 们 再 次 借助 load 值 撤回 机 制 。 在 该 机 制 下 ，ROB 顶部 的 load 
操作 要 等 到 store 缓冲 中 之 前 所 有 的 store 都 已 经 全 局 完成 后 才能 退出 。 如 果 可 能 的 话 ，load 也 
可 以 在 store 缓冲 中 返回 值 。 

虽然 推测 乱 序 执行 允许 load 被 推测 全 局 完成 ， 以 提供 对 load 延迟 的 容忍 (在 cache 失效 的 
情况 下 ) ， 但 是 到 达 ROB 顶部 的 load 还 是 必须 等 待 store 缓冲 中 之 前 所 有 的 store 都 按照 线程 序 
逐个 全 局 完成 。 此 外 ，ROB 和 其 他 结构 (诸如 load/store 队列 和 发 射 队 列 ) 可 能 被 填 满 ， 一旦 
ROB 或 其 他 队列 之 一 被 填 满 ， 那 么 分 发 流水 级 就 会 堵 住 ， 从 而 导致 整个 处 理 器 被 阻塞 。 因 此 ， 
即使 在 支持 乱 序 执行 和 load 值 撤回 的 情况 下 ， 放 松 模型 通过 人 允许 load 越过 之 前 store ， 仍 然 可 
以 获得 比 顺序 一 致 性 模型 更 高 的 效率 。 

TSO 中 的 推测 执行 

在 TSO 模型 中 ，load 可 以 从 线程 的 store 流水 线 中 返回 一 个 非 GP 值 ， 以 此 在 本 地 推测 完 
成 ， 虽然 这 个 返回 的 值 仍然 在 线程 的 store 缓冲 中 , 但 是 推测 完成 的 load 却 不 能 撤回 ， 因 为 
load 对 应 的 位 置 不 一 定 在 cache 中 有 缓存 。 但 是 这 仍然 是 和 模型 一 致 的 ， 因 为 TSO 允许 线程 从 
store 流水 线 中 返回 非 GP 值 。 

如 果 当 推测 load 退出 的 时 候 ， 返 回 其 值 的 store 仍 在 store 缓冲 中 ,那么 此 时 是 和 模型 一 致 
的 。 与 之 相反 ， 如 果 store 在 load 退出 之 前 就 已 经 全 局 完成 ， 那 么 数据 块 副 本 将 会 加 载 到 cache 
中 ，load 也 将 受到 无 效 或 者 更 新 信号 的 约束 ， 这 也 与 模型 一 致 。 

在 支持 store-load 顺序 放松 的 模型 中 ， 乱 序 处 理 器 的 store 缓冲 是 有 作用 的 。 不 过 ，store 组 
冲 中 的 store 仍然 必须 以 线程 序 全 局 完成 。 弱 顺序 模型 和 释放 一 致 性 中 没有 这 些 限制 ， 普 通 load 
和 store 操作 可 以 在 存储 系统 中 乱 序 执行 。 下 面 我 们 先 介 绍 一 下 在 推测 乱 序 执行 处 理 器 中 ， 
RMW 访问 是 如 何 推测 执行 的 。 

RMW 访问 中 的 推测 执行 

RMW 访问 包含 一 系列 复杂 指令 : 先是 一 个 load， 然 后 是 一 些 寄存 器 操作 ， 最 后 是 一 个 
store， 整 个 操作 序列 必须 原子 完成 。， 

先 看 一 个 最 简单 的 例子 : test_and_set， 这 条 指令 先是 一 个 load， 紧 接着 一 个 store 1 的 操 
作 。 如 果 支 持 load 值 撤回 ， 那 么 test_and_set 可 以 当成 load 推测 执行 ， 当 test_and_set 到 达 ROB 
顶部 时 ， 又 被 看 成 一 个 store 操作 来 对 其 全 局 完成 。 因 为 test_and_set 首先 被 看 成 一 条 load ， 如 
果 在 退出 之 前 收 到 更 新 或 者 无 效 请 求 消息 ， 则 load 值 将 被 撤回 。 如 果 test_and_set 在 退出 之 前 
被 撤回 ， 那 么 后 续 的 整个 推测 执行 过 程 都 将 进行 回 滚 。 该 test_and_set 需要 等 到 之 前 所 有 的 访 
存 都 已 经 全 局 完成 时 ， 它 才能 全 局 完成 并 退出 。 因 此 ，test_and_set 必须 在 ROB 顶部 等 待 ， 直 
到 store 缓冲 中 所 有 之 前 的 store 操作 都 已 经 全 局 完成 ， 其 对 应 的 load 操作 仍然 支持 load 值 撤回 
机 制 来 保障 。 最 后 ，test_and_set 不 允许 在 store 缓冲 项 上 进行 推测 执行 ( 即 不 对 test_and_set 中 
的 load 进行 前 递 ) 。 
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弱 顺 序 模型 中 的 推测 执行 

在 弱 顺 序 模型 中 ， 对 同步 变量 的 所 有 访问 (同步 load， 同 步 store 或 RMW 指令 ) 都 将 视 为 
栅栏 操作 (类似 顺序 一 致 性 中 的 load 或 者 store 或 者 RMO 中 的 MEMBAR 指令 ) 。 对 同步 变量 的 
访问 必须 到 达 ROB 顶部 (不 再 处 于 推测 状态 ) ， 并 且 确 保 store 缓冲 中 的 所 有 store 都 已 经 全 局 
完成 时 , 它 才 能 全 局 完成 ， 此 外 ， 所 有 之 前 的 load 操作 也 必须 都 已 经 全 局 完成 。 上 述 条 件 确保 
在 执行 同步 变量 访问 之 前 ， 之 前 所 有 的 访 存 操作 都 已 经 全 局 完成 了 。 

我 们 还 需要 确保 只 有 当 同 步 变 量 访问 已 经 全 局 完成 后 ， 后 续 的 访 存 操 作 才 能 执行 。 这 一 点 
对 于 store 和 RMW 访问 来 讲 是 自动 保证 的 ， 因 为 store 不 允许 推测 执行 。 当 有 load 值 撤 回 机 制 
保障 时 ， 对 同步 变量 的 load 访问 (包括 RMW 访问 中 的 16ad) 可 以 推测 执行 ， 而 RMW 访问 中 
的 store 操作 必须 等 待 store 缓冲 为 空 并 且 之 前 所 有 的 load 都 已 经 全 局 完成 后 ， 才 能 在 ROB 顶部 
完成 。 上 述 优化 使 得 对 同步 变量 的 load 操作 或 RMW 访问 操作 之 后 的 其 他 指令 可 以 推测 执行 。 
对 非 同步 变量 的 普通 load 操作 也 可 以 推测 执行 , 但 是 无 需 受 限于 load 值 撤回 机 制 ， 如 果 之 前 的 
同步 操作 或 者 RMW 访问 被 撤回 ， 那 么 该 推测 执行 过 程 也 会 进行 回 滚 。 

释放 一 致 性 的 推测 执行 

在 释放 一 致 性 中 ，release 操作 要 等 到 之 前 所 有 的 访 存 操作 都 已 经 全 局 完成 之 后 才能 执行 ， 
而 acquire 后 的 访 存 操作 也 需要 等 到 acquire 已 经 全 局 完成 之 后 才能 执行 。 不 过 ，load 操作 可 以 
推测 执行 。 

和 弱 顺 序 模型 中 类 似 ， 所 有 对 非 同步 变量 的 普通 load 操作 可 以 在 到 达 ROB 顶部 之 前 就 推 
测 执行 ， 无 需 受 load 值 撤回 机 制 的 限制 。acquire 中 的 load 操作 也 可 以 推测 执行 , 但 是 必须 有 
load 值 撤回 机 制 的 保障 ， 这 样 当 出 现 违反 模型 定义 的 情况 时 可 以 对 推测 执行 过 程 进 行 回 滚 。 根 
据 释 放 一 致 性 的 定义 ，acquire 可 以 越过 之 前 的 store， 但 是 不 能 越过 之 前 的 release。 在 store 组 
冲 中 的 所 有 release 全 局 完成 之 前 ，acquire 必须 在 ROB 顶部 等 待 ， 以 便 保 证 可 以 撤回 。 

在 乱 序 处 理 器 中 ， 释 放 一 致 性 相 比 弱 顺序 模型 的 好 处 ， 和 图 7-3 中 顺序 处 理 器 中 的 情况 是 
一 样 的 : 作为 release 操作 中 的 一 部 分 同步 访问 (假定 是 带 标记 的 store， 而 不 是 RMW 指令 ) 可 
以 像 普通 store 一 样 插入 到 store 缓冲 中 ， 从 而 使 得 后 续 的 其 他 指令 可 以 先 退 出 。 
习题 
7.1 “(a) 考虑 如 下 的 程序 段 ,， 假设 A 和 B 是 内 存 中 变量 ， 并 且 初 始 值 为 0，RI、R2 和 R3 是 寄存 器 : 
Pp1 P2 P3 
A=1 R1=A R2=B 

B=1 R3=A 
程序 的 不 同 执 行 过 程 可 以 通过 最 后 load 的 返回 值 来 区 分 ， 即 执行 结束 时 R1、R2 和 R3 中 的 
值 。 分别 给 出 下 列 情况 下 的 执行 过 程 和 寄存 器 值 ( 如 果 存 在 的 话 ): 
(al) 不 满足 纯 一 致 性 。 
(a2) 不 满足 顺序 一 致 性 。 
(a3) 不 满足 TSO。 
(a4) 不 满足 弱 顺 序 模型 。 
针对 上 面 每 种 情况 给 出 你 的 理由 。 
针对 下 面 的 程序 ， 回 答 (a) 中 的 同样 问题 : 
Pl P2 
A=1 B=1 
R1=B R2=A 


(ec) 针对 下 面 的 程序 ， 回答 (a) 中 的 同样 问题 : 


(b 


— 
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Pp1 P2 
A=1 B=1 
R1=A R3=B 
R2=B R4=:A 
(d) 针对 下 面 的 程序 ， 回 答 (a) 中 的 同样 问题 : 
Pp1 Pp2 
A=1 B=1 
C=1 C=2 
R1=C R3=C 
R2=B R4=A 


本 题 中 ,使 用 不 同 的 同步 原 语 来 实现 简单 的 barrier 同步 代码 ， 以 支持 N 个 线程 的 同步 : 


BARDEC BAR=0 


P1 P2 ie PN 
BAR +=BAR; BAR +=BAR; BAR +=BAR; 
while (BAR<N); while (BAR<N); while (BAR<N); 


很 显然 ， 增 加 变量 BAR 值 (barier 计数 器 ) 的 语句 必须 使 用 某 种 同步 原 语 进行 保护 ， 否 则 某 

些 增加 BAR 值 的 操作 可 能 没有 生效 ， 从 而 导致 代码 出 现 死 锁 。 

(a) 请 解释 为 什么 不 需要 用 临界 区 来 保护 while 循环 中 对 BAR 变量 的 读 取 。 

(b) 使 用 test_and_test&set 指令 ， 给 出 每 个 线程 的 正确 实现 代码 (用 类 MIPS 汇编 代码 给 出 所 有 指 
令 )。 假 设 有 一 条 新 的 T&S R1，X 指令 ,其 中 X 是 内 存 地 址 。 ; 

(c) 假定 有 一 条 新 的 F&A 指令 (F&A R1，X) ，F&A 包含 一 个 加 1 操作 ; X 是 内 存 地 址 。 给 出 每 
个 线程 的 正确 代码 实现 。 

(d) 上 述 barrier 代码 的 问题 之 一 是 barrier 不 允许 多 次 进入 ， 因 为 在 barrier 同步 的 最 后 ，BAR 的 值 
是 N，, 为 此 给 出 下 面 的 代码 (我 们 还 是 假定 BAR 增加 的 指令 是 放 在 临界 区 内 的 ) : 


BARDEC BAR=0 


Pl P2 。 

BAR +=BAR; BAR +=BAR; BAR +=BAR; 

if (BAR==N) BAR=0; if (BAR==N) BAR=0; if (BAR==N) BAR=0; 
while (BAR!=0); while (BAR!=0); while (BAR!=0); 
BAR +=BAR; BAR +=BAR; BAR +=BAR; 

if (BAR==N) BAR=0; if (BAR==N) BAR=0; if (BAR==N) BAR=0; 
while (BAR!=0); while (BAR!=0); while (BAR!=0); 


我 们 可 以 通过 使 用 CAS ( R1，R2，X) 指令 来 原子 拒 行 上 面 的 诸 各 ,请 解释 如 何 实现 。 此 
我 们 并 没有 必要 原子 执行 话语 句 ， 请 解释 为 什么 。 

上 述 代码 可 能 导致 死 锁 ， 请 解释 为 什么 。 

问题 (d) 的 解决 方案 之 一 是 交替 地 增加 和 减少 barrier 计数 。 我 们 只 需要 记录 一 个 二 进 制 标志 
用 于 表示 barrier 已 经 执行 了 偶数 次 (增加 BAR) 还 是 奇数 次 ( 减 小 BAR) 。 请 使 用 F&A 指令 
实现 一 个 BARRIER (BAR，N) 函数 ， 要 求 函数 可 以 任意 多 次 调用 ， 并 且 每 次 均 可 正确 工作 。 
本 题 考虑 用 LL (load-linked) 和 SC (store conditional) 实现 各 种 同步 原 语 。 两 种 基本 指令 格式 
如 下 : 

LL Rx,A/load mem location A in Rx; 

SC Rx,A/conditionally store (Rx) into mem location A 


一 
© 
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store 是 有 条 件 的 ， 如 果 处 理 器 在 LL 和 SC 之 间 收 到 针对 X 的 无 效 或 者 更 新 请 求 消息 ， 那 么 
store 将 被 终止 ，Rx 返回 0。( 注意 ， 当 lock 成 功 时 store 的 值 不 可 能 是 0) 。store 成 功 与 否 可 以 通过 
侦 听 器 或 者 网 络 接口 中 的 一 些 寄 存 器 来 检测 ， 寄 存 器 中 保存 了 LL 的 地 址 ， 并 且 每 当 SC 执行 时 进 
行 检 查 ， 如 果 网 络 接口 收 到 修改 该 地 址 的 无 效 或 者 更 新 请 求 消息 ，SC 将 会 失败 。 

在 LL 和 SC 之 间 可 以 插 和 人 其 他 指令 ， 只 要 搬 人 的 指令 不 是 store 操作 ， 并 且 不 会 触发 异常 。 比 
如 ， 指 令 本 身 可 能 会 产生 意外 ， 但 是 程序 员 知 道 在 这 种 情况 下 异常 永远 不 会 出 现 ， 那 么 也 是 可 以 
使 用 的 。 在 LL 和 SC 之 间 进 行 上 下 文 切 换 会 导致 SC 失败 。 

在 本 章 中 ， 我 们 已 经 介绍 了 如 何 使 用 上 述 指 令 实现 一 个 test_and_set 功能 ， 这 里 ,将 使 用 LL 和 
SC 实现 一 些 其 他 的 同步 原 语 (甚至 有 些 实际 不 存在 的 同步 原 语 ): 

(a) 给 出 F&ADD X，Rx，a 的 实现 代码 ， 其 中 a 是 加 到 名 上 的 一 个 小 的 立即 数 。 
(b) 给 出 F&ADD X，Rx，Ry 的 实现 代码 ， 其 中 Ry 加 到 XX 中， 并且 Rx 返回 X 在 执行 ADD 之 前 的 

值 。 

(c) 给 出 F&ADD X，Rx，Y 的 实现 代码 ， 其 中 内 存 位 置 Y 的 值 加 到 内 存 位 置 X 中 ,执行 ADD 前 

的 X 值 存 人 Rx。 

(d) 给 出 SWAP (Rx，X) 的 实现 代码 , 其 中 Rx 和 X 的 值 将 进行 交换 。 
(e) 给 出 CAS Rx，Ry, X 的 实现 代码 ， 先 将 Rx 的 值 与 X 的 值 进行 比较 ， 如 果 相 等 ， 则 将 Ry 和 X 

的 值 进行 交换 。 E 
(f) 要 求 程序 员 使 用 LL 和 SC， 而 不 是 使 用 锁 ， 来 实现 一 个 像 原子 操作 的 临界 区 ,线程 的 临界 区 代 

码 如 下 : 

A += A; 

if (A==8) B=B+1; 

else B=0; 

A 和 B 是 可 写 的 共享 变量 。 假 定 程序 员 直 接 用 汇编 语言 来 编写 代码 ， 可 否 找 到 一 种 使 用 LL 和 
SC 来 实现 临界 区 代码 的 方法 ?如果 有 ， 请 给 出 代码 ;如 果 不 能 ， 请 解释 原因 。 

为 了 提高 效率 ， 多 处 理 器 系统 中 的 每 个 处 理 器 都 必须 配备 store 缓冲 ， 就 像 单 处 理 器 一 样 ， 本 题 将 
探讨 多 核 环境 下 store 缓冲 的 管理 问题 。 | 

假设 处 理 器 每 次 只 执行 一 条 指令 〈 即 没有 流水 线 ) 。 参 考 图 7-35， 假 定 处 理 器 没有 任何 cache， 
并 通过 电路 交换 总 线 连接 到 内 存 中 ， 内 存 由 单个 内 存 bank 构成 (因此 cache 访问 是 原子 的 ) 。 在 任 
何 情况 下 ，store 一 旦 插入 到 store 缓冲 中 就 可 以 完成 (退出 ， 提 交 ) ， 此 后 store 缓冲 逐个 处 理 针 对 
内 存 的 store 操作 。 


load store load’ store load store load store 


store buffer 





图 7-35 


大 多 数 load 都 跳 过 store 缓冲 直接 访问 内 存 ， 当 值 返回 时 load 操作 也 就 完成 了 。 不 过 有 些 load 
可 能 从 store 缓冲 中 返回 值 (参考 下 面 的 说 明 ) 。 在 下 面 给 出 的 每 种 情况 中 ， 分 别 说 明 多 处 理 器 是 
否 满足 纯 一 致 性 、 顺 序 一 致 性 、store 原子 性 、 弱 顺序 模型 或 者 TSO， 并 说 明 原 因 。 
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(a) 当 store 还 在 store 缓冲 中 时 ，store 后 面相 同 地 址 的 1oad 操作 可 以 通过 返回 store 缓冲 中 与 该 
store 相关 联 的 值 而 完成 load 操作 。store 缓冲 按照 FIFO 方式 管理 ， 如 果 在 store 缓冲 中 有 一 个 
以 上 的 对 同一 地 址 的 store;= 那 么 load 以 FIFO 顺序 返回 最 近 的 store 值 。store 操作 在 store 缓冲 
中 按照 FIFO 顺序 逐个 全 局 完成 ， 当 store 操作 还 在 存储 系统 中 传播 时 ， 其 对 应 的 项 一 直 保 存在 
store 缓冲 中 。 

同 (a), 但 是 任何 时 间 对 于 给 定 地 址 具 能 有 一 个 store 在 store 缓冲 中 。 如 果 store 发 射 到 store 
缓冲 中 时 ， 里面 已 经 有 对 应 同一 地 址 的 store 了 ,那么 新 的 store 将 以 FIFO 顺序 替换 掉 旧 的 
Store。 

同 (a) ,但 是 当 store 还 在 FIFO 结构 的 store 缓冲 中 时 ， 如 果 load 从 内 存 而 不 是 从 store 缓冲 中 
返回 值 ， 那 么 store 后 相同 地 址 的 load 可 以 完成 。 

(d) 同 (a), 但 是 当 load 在 store 缓冲 中 找到 有 对 应 相同 地 址 的 store 时 ，load 需要 等 待 直到 store 

在 内 存 中 执行 ， 然 后 再 从 内 存 中 读 取 到 相应 的 值 ， 从 而 完成 load 操作 。 

(e) 同 (a), 但 是 所 有 load 都 需要 等 到 store 缓冲 为 空 后 才能 在 内 存 中 执行 。 
(f) 按照 如 下 条 件 重 复 (a) ~ (e): store 缓冲 中 的 store 可 以 在 内 存 中 以 任何 顺序 尽 可 能 快 地 执 

行 , 无 需 考虑 特定 的 处 理 顺序 。 

侦 听 cache 协议 可 以 是 基于 写 无 效 策略 或 者 写 更 新 策略 的 ， 这 两 者 各 有 自己 的 缺点 , 一 个 折 中 的 办 
法 是 采用 混合 的 写 更 新 / 写 无 效 协议 。 

在 这 个 折 中 的 协议 〈 称 为 竞争 协议 ) 实现 中 , 基本 协议 是 基于 更 新 的 ， 然 而 ， 如 果 cache 副本 
在 本 地 处 理 器 访问 之 前 就 被 远程 处 理 器 更 新 了 不 止 一 次 ， 那 么 该 本 地 副本 将 自己 无 效 掉 。 要 实现 
这 一 点 ， 只 需要 为 每 个 cache 块 设置 一 个 相关 位 ， 称 为 UP 位 。 数据 块 刚 装载 进 cache 时 ，UP 位 置 
0， 如 果 接 收 到 更 新 请 求 ，UP 位 置 1， 当 处 理 器 进行 了 本 地 访问 时 ,UP 位 又 被 重 置 为 '0。 如 果 
cache 块 收 到 更 新 请 求 时 ，UP 位 为 1， 那么 该 数据 块 就 会 在 本 地 无 效 掉 。 

该 协议 是 一 种 四 状态 、 写 穿 透 的 协议 。 总 线 共享 线路 上 刚 返 回 的 值 在 状态 图 中 用 S 表示 。S0 
是 当 UP 为 0 时 的 共享 状态 ，S1 是 UP 为 1 时 的 共享 状态 。 在 状态 S0 和 SI 时 ; 数据 是 干净 (由 于 
采用 写 穿 透 策略 ， 内 存 是 一 致 的 ) 和 共享 的 (可 能 存在 多 个 副本 )。 最 后 一 个 状态 D 表示 数据 被 修 
改 ， 并 且 是 系统 中 唯一 的 副本 ( 内存 数据 是 旧 的 )。 

请 推导 出 这 个 协议 的 状态 转换 图 ， 对 于 每 一 个 状态 转换 ， 请 给 出 对 应 的 动作 ， 类 似 第 7.3.2 节 
中 介绍 的 MSI 协议 。 有 限 状 态 机 (FSM) 的 输入 是 PrRd: PrWr、BusRd 和 BusUpd。 需 注意 的 是 ， 
部 分 总 线 访问 需要 清空 数据 块 ， 某 些 转换 过 程 可 能 会 进入 两 种 不 同 的 状态 ， 具 体 取决 于 总 线 共 享 
线路 返回 的 值 。 

本 题 探 讨 cache 失效 对 于 实际 时 序 和 存储 一 致 性 模型 的 敏感 度 ， 我 们 使 用 雅 可 比 算法 对 各 种 不 同 
cache 一 致 性 协议 下 的 开销 进行 说 明 ， 该 算法 的 流程 图 如 图 7-2 所 示 。 

假设 cache 无 限 大 ( 即 不 存在 容量 失效 和 冲突 失效 ) ， 并 且 算 法 已 经 运行 了 一 段 时 间 ( 即 不 
存在 冷 失效 ) 。 不 过 由 于 cache 一 致 性 协议 的 原因 ，cache 仍然 可 能 存在 一 致 性 失效 ， 例 如 ， 基 于 
无 效 协 议 中 无 效 请 求 导致 的 失效 就 者 基于 更 新 协议 中 更 新 请 求 导致 的 失效 。 由 于 和 矩 阵 A 是 只 读 
的 ， 对 和 矩阵 A 的 访问 不 会 出 现 失 效 。 此 外 , 也 忽略 掉 由 于 barrier 同步 导致 的 失效 。 因 此 ， 这 里 
只 关注 对 X 和 YY 的 访问 。 所 有 的 X 存 在 于 同一 个 cache 块 内 ， 所 有 的 站 也 存在 于 同一 个 cache 块 
内 。 由 于 X 和 YY 是 可 写 的 共享 变量 ,因此 将 其 声明 为 volatile 类 型 ， 这样 编译 器 不 会 把 它们 放 到 
寄存 器 中 。 

线程 1 (TI) 中 对 Y 和 X 的 访问 顺序 如 下 : 

rY1, wX1,rY2, wX1,rY3, wX1,rY4, wX1,rX1, wY1, rX2, wY]1,rX3, wY1,rX4, wY1，... 

其 中 , r 代表“ 读 ”, w 代表 “ 写 ”。 线程 全 、T3 和 T4 对 X 关 和 YY 访问 的 顺序 也 类 似 。 

考虑 如 下 四 种 协议 : MSI- 无 效 ，MSI- 更 新 ，MESI 协 议 ， 习题 7.5 中 的 竞争 协议 。 

(a) 首先 假定 系统 是 顺序 一 致 性 的 ， 所 有 处 理 器 的 运行 速度 完全 相同 ， 并 且 访 存 操作 必须 逐个 全 


(b 


— 


(ce 


— 
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局 完成 ， 这 样 4 个 线程 按照 轮 询 的 方式 对 X 和 YY 进行 交错 访问 。 以 上 面 的 执行 序列 为 例 ， 所 
有 处 理 器 每 次 都 先 执行 读 Y1， 然后 所 有 处 理 器 再 执行 写 X， 以 此 类 推 。 

在 Jacobi 算法 整个 循环 的 一 次 迭代 中 ， 在 MSI、MESI 无 效 协议 下 ， 所 有 处 理 器 总 的 一 臻 
性 失效 次 数 有 多 少 ? 在 MSE- 更 新 协议 中 ， 有 多 少 次 更 新 ? 在 题 7.5 的 竞争 协议 中 ， 更 新 和 无 
效 的 次 数 又 分 别 有 多 少 ? 
在 不 同 的 假定 时 序 下 重新 回答 问题 (a)s 仍然 假定 系统 是 顺序 一 致 性 的 ， 并 且 访 存 操作 逐个 
全 局 完成 。 然 而 ;这 里 假定 访 存 的 全 局 交错 方式 有 所 不 同 : 在 迭代 的 第 一 个 和 第 二 个 阶段 ， 
线程 轮流 执行 访 存 操作 ， 先 是 TI1， 然 后 T2， 再 13， 最 后 是 T4。 然 后 到 第 二 阶段 后 ， 还 是 这 
样 的 顺序 ; 从 Tl1、T2、T3， 最 后 到 T4。 
假定 系统 满足 释放 一 臻 性， 并且 store 缓冲 足够 大 , "因此 ，store 操作 只 有 在 必要 时 (比如 
release 时 ) 才 会 进行 值 的 传播 ， 针对 上 面 四 种 协议 ; 更 新 失效 /无 效 失效 的 次 数 分 别 是 
多 少 ? 
考虑 如 下 的 访 存 序列 ; 


rl wlrl wl 72 w2r2 w2r3 w3 r3 w3r2 w2 w2r2 


上 面 的 所 有 访问 都 是 针对 相同 内 存 位 置 的 : r 和 w 分 别 表示 读 和 写 ， 数 字 表 示 是 哪个 处 理 器 。 
对 比 四 种 协议 ; MSI 无 效 ，MSL 更 新 ，MESI 协议 和 竞争 协议 。 在 MSI 和 MESI 中 ， 新 引入 一 个 
BusUpgrade 事务 ， 该 事务 在 处 理 器 已 经 有 一 个 共享 (一 致 且 最 新 的 ) 副本 时 使 用 这样 我 们 只 需 
要 简单 无 效 掉 其 他 cache， 而 无 需 发 出 BusRdX 并 重新 装载 对 应 数据 块 。 . 

假设 所 有 cache 初始 为 空 ， 使 用 如 下 的 成 本 模型 : 无 需 总 线 访 问 的 读 / 写 cache 命中 , 开销 为 1 
个 周期 ; 需要 简单 总 线 事务 ,( BusUpgrade，BusUpdate) 的 cache 访问 ， 开 销 为 20 个 周期 ; 需要 传 
送 整 个 cache 块 的 失效 开销 为 150 个 周期 。 上 面 的 开销 数据 是 包含 执行 过 程 中 所 有 访问 的 总 周 
期 数 。 

在 基于 总 线 的 机 器 上 执行 上 述 访 存 序列 ， 对 比 在 四 种 不 同 协议 时 的 开销 并 解释 差异 的 原因 ， 
给 出 执行 过 程 中 具体 的 访问 和 协议 流 。 

要 将 :13 个 任务 T(i) ,i=0,…，12 调度 到 一 个 包含 4 个 处 理 器 的 多 处 理 器 系统 中 ,假定 任务 按照 
索引 号 顺序 创建 (0 ~ 12) 。 考 虑 如 下 四 种 可 能 的 调度 策略 : 

。 静态 调度 。 按 照 模 4 的 方式 静态 将 任务 T(i) 分 配给 对 应 处 理 器 (i mod 4)。 

。 半 静 态 调度 任务 最 初 采用 静态 分 配 ， 不 过 当 某 个 处 理 器 空闲 时 ， 就 从 其 他 的 任务 队列 中 还 

有 待 执行 任务 的 处 理 器 中 “ 偷 ” 一 个 索引 号 最 小 的 任务 进行 执行 
。 动态 调度 。 将 任务 的 描述 符 按照 创建 的 顺序 保存 在 一 个 FIFO 工作 队列 中 ， 然 后 每 个 处 理 器 从 

队列 中 获取 描述 符 并 执行 对 应 任务 ， 任务 执 行 完 后 再 重新 取 下 一 个 描述 符 ， 直 到 所 有 任务 都 已 

经 执行 完 。 

。 最 优 调度 。 假 定 我 们 一 开始 就 知道 任务 的 执行 时 间 。 因 此 可 以 将 任务 按照 最 优 的 方式 调度 到 四 
个 处 理 器 上 ， 使 得 总 执行 时 间 (不 考虑 其 他 开销 ) 最 短 。 

请 根据 如 下 两 种 情况 分 别 给 出 四 种 调度 策略 下 的 总 执行 时 间 和 加 速 比 : (1) 任务 .T(i) 的 执行 
时 间 为 1+i; (2) 任务 T(i) 的 执行 时 间 为 13-i。 
简单 的 CAS 指令 中 有 三 个 操作 数 : 寄存 器 Rx、Ry 和 地 址 X， 如果 X 的 值 和 Rx 相等 ， 那 么 将 Ry 和 
X 的 值 进行 交换 。 

CAS 指令 的 描述 如 下 : 
CAS (Rx, Ry, X) LW Rtempl,X 
MOV Rtemp2,Rtempl/make a copy of X 
BNE Rx,Rtempl,exit /compare 
MOV Rtempl,Ry 
MOV Ry,Rtemp2/swap 
Exit: SW Rtempl,X /store back X or Ry 


(b 


一 


(ec 


— 


二 


CAS 是 一 个 必须 原子 执行 的 复杂 指令 。 上 面 给 出 的 是 基于 微 操作 的 一 种 可 能 实现 ，Rtempl 和 
Rtemp2 是 内 部 寄存 器 〈 非 架构 寄存 器 ) 。CAS 中 的 所 有 指令 ( 从 Moad 到 exit) 必须 原子 执行 。 因 
此 , 在 CAS 退出 之 前 ， 所 有 指令 必须 执行 完 ， 并 且 所 有 微 操 作 必须 打包 成 组 整体 退出 。 如 果 系 统 
中 有 store 缓冲 ， 那 么 store 缓冲 中 的 所 有 store 必须 在 cache 中 先 完成 ， 然 后 CAS 中 的 store 才能 从 
ROB 中 退出 并 移 到 store 缓冲 中 。 

在 MSI- 无 效 协议 下 ， 确 保 CAS 原子 性 的 方法 之 一 是 等 到 CAS 到 达 ROB 顶部 再 执行 。CAS 执行 
开始 时 ， 会 先 获 得 包含 X 的 数据 块 的 一 个 独 有 的 (exclusive) 副本 ， 并 且 在 store 在 cache 中 执行 之 
前 , 会 一 直 保 存在 cache 中 (在 此 期 间 不 对 总 线 请 求 进行 应 答 )。 这 种 实现 机 制 的 问题 在 于 ，LW 
的 值 要 等 到 CAS 到 达 ROB 顶部 的 时 候 才 能 返回 。 因 此 ， 等 待 该 结果 (Ry 的 值 ) 的 其 他 指令 需要 
留 在 发 射 队列 中 ,一 直 等 到 CAS 到 达 ROB 顶部 。 

假如 LW 有 load 值 撤 回 机 制 的 保障 ， 并 且 在 store 成 功 完成 之 前 CAS 中 的 整个 微 操 作 序列 会 一 
直 存 在 ROB 中 , 那么 CAS 也 可 以 在 到 达 ROB 顶部 之 前 进行 推 
测 执 行 (除了 其 中 的 store 操作 ) 。 任 何 时 候 ， 如 果 CAS 的 load 
值 必须 撤回 ， 那 么 CAS 的 执行 以 及 ROB 中 CAS 之 后 的 所 有 指 
令 都 必须 进行 回 深 。 对 CAS 的 推测 执行 和 基于 LL 和 SC 的 实 。 Top 一 > 
现 非常 类 似 。 

利用 CAS 指令 ,我 们 很 容易 在 内 存 中 实现 一 个 循环 队列 
(类 似 ROB 的 硬件 实现 ， 如 图 7-36 所 示 ) 。 出 队 和 入 队 是 两 个 
基本 的 操作 * “Top” 指 针 总 是 指向 队列 中 最 旧 的 一 个 插入 项 ， Bottom 一 > 
而 “Bottom” 总 是 指向 下 一 个 待 插入 项 的 位 置 。 利 用 下 面 的 代 
码 ， 入 队 和 出 队 可 以 并 行 执行 。 如 果 没 有 CAS 指令 ， 那 么 每 
次 进行 队列 操作 时 ， 都 需要 锁 住 整个 队列 ， 这 会 降低 并 发 性 。 

下 面 的 代码 中 ， 队 列 大 小 是 256 个 字 节 a 
Enqueue (TOP,BOTTOM,R1){ /insert value at BOTTOM 
Begin: LW R2,TOP 

LW R3,BOTTOM 


SUBI R4,R3,#4 /Compute next value of BOTTOM 

ANDI R4,R4,OxxFF /MOD 256 

BEQ R2,R4,Begin /TOP=BOTTOM-4 => Q is full 

CAS R3,R4,BOTTOM /If BOTTOM is unchanged, 
/decrement it atomically 

BNE R3,R4,Begin /to grab queue entry 

SW R1,0 (R3) /Store entry at BOTTOM 

} 

注意 结尾 的 store 是 互 斥 完成 的 ， 因 为 该 位 置 已 经 被 CAS 指令 原子 保留 了 。 

Dequeue (TOP,BOTTOM,R1){ : /Remove value from TOP 

Begin LW R2,TOP 


LW R3,BOTTOM 

BEQ R2,R3,Begin /TOP=BOTTOM, Q is empty 
SUBI R4,R2,#4 

ANDI r4,r4,0xx0FF /mod 256 


CAS R2,R4,TOP /if TOP is unchanged 
BNE R2,R4,Begin /decrement it atomically 


LW R1,0(R2) /retrieve entry 


} 
假设 实现 该 队列 的 系统 是 弱 顺 序 模型 ， 处 理 器 支持 推测 乱 序 执行 以 及 CAS 指令 的 推测 执行 ， 普通 
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load 不 受 load 值 撤回 机 制 保障 ,但 CAS 中 的 LW 在 CAS 执行 之 前 仍 受到 load 值 撤回 机 制 的 保障 。 

(a) 假定 有 一 个 生产 者 和 两 个 消费 者 ， 并 且 场 景 如 下 : 队列 为 空 ， 并 且 两 个 消费 者 一 直 在 试图 执 
行 出 队 操作 。 当 生产 者 没有 执行 人 队 操作 时 ， 请 详细 描述 在 两 个 消费 者 中 将 会 发 生 什 么 ， 人 
队 和 出 队 操作 能 否 正确 工作 ? 

(b) 现在 假定 在 (a) 的 场景 中 ， 生产 者 往 队列 中 插入 了 一 个 新 值 ， 其 中 一 个 正在 等 待 的 消费 者 取 
到 了 这 个 值 ， 另 一 个 消费 者 继续 等 待 。 请 详细 描述 在 三 个 处 理 器 中 将 会 发 生 什 么 ， 入 队 和 出 
队 操作 能 否 正确 工作 ?: 
在 回答 上 述 问题 时 ， 先 假定 cache 协议 采用 的 是 MSI- 无效 协议 ， 然 后 再 假定 是 MSI 写 更 新 协 

议 。 请 分 别 解 释 在 这 两 种 情况 下 ， 需 要 如 何 来 保证 弱 顺 序 模型 下 的 推测 执行 是 可 行 的 。 

(c) 当 CAS 不 能 推测 执行 ， 而 普通 load 可 以 推测 执行 ， 并 不 有 load 值 撤回 机 制 保障 时 ， 会 有 什 
么 变化 ? 这 对 性 能 有 何 影 响 ? 
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8.1 概述 


本 章 我 们 主要 讨论 单 芯 片 内 的 线程 级 并 行 。 芯 片 内 的 并 行 存在 几 种 不 同 的 形式 ， 在 单 核 内 
可 以 同时 执行 多 个 线程 以 提高 资源 的 利用 率 ， 这 种 方式 称 为 核 内 多 线程 。 根 据 从 多 个 就 绪 线程 
中 取 指 的 方式 和 时 机 的 不 同 ， 可 以 将 核 内 多 线程 划分 为 三 种 类 型 : 块 式 多 线程 ， 交 错 多 线程 ， 
同时 多 线程 。 本 章 将 给 出 支持 这 三 种 核 内 多 线程 所 需 的 必要 硬件 补充 和 修改 ， 从 而 使 之 可 以 在 
传统 (单线 程 ) 的 顺序 或 乱 序 上 下 文 环 境 下 正常 工作 运行 。 我 们 将 用 具体 实例 来 展示 细 粒 度 
多 线程 相 比 于 粗 粒度 多 线程 的 性 能 优势 ， 当 然 这 些 优 势 是 以 额外 的 硬件 成 本 为 代价 的 。 

紧 接着 介绍 的 是 在 片上 集成 多 个 处 理 器 核 来 开发 片上 并 行 性 的 例子 。 目 前 ,片上 多 人 处理 胡 
(CMP) 系统 在 从 手机 到 数据 中 心服 务 器 的 各 个 计算 领域 广泛 使 用 。 相 对 于 传统 的 共享 内 存 多 
处 理 器 (SMP) ， 本 书 所 讲解 的 CMP 的 主要 优点 源 于 其 所 有 处 理 器 核 都 通过 片上 互连网 络 紧密 
地 集成 在 单个 芯片 上 。 我 们 将 介绍 当前 用 于 构建 CMP 系统 的 3 种 常见 片上 互 连 方法 ， 当 CMP 
上 的 所 有 处 理 器 核 都 相同 时 ,我 们 称 之 为 是 同 构 (homogeneous) CMP， 反 之， 异 构 CMP 上 的 
处 理 器 核 可 以 具备 不 同 的 功能 ， 在 本 章 中 ， 将 介绍 不 同类 型 的 异 构 CMP 设计 ,以 及 它们 在 性 
能 和 功能 上 的 区 别 。 

考虑 到 CMP 在 实际 中 广泛 使 用 ， 对 于 未 来 的 芯片 设计 者 和 程序 开发 者 来 说 ， 有 必要 掌握 
不 同 的 并 行 编程 模型 。 要 想 发 挥 CMP 的 并 行 性 ， 并 行 编程 是 一 个 需要 解决 好 的 关键 问题 。 目 
前 ，OpenMP、Pthread 和 其 他 一 些 并 行 编程 模式 已 经 帮助 程序 员 快 速 地 开发 并 行 代码 , 但 是 ， 
CMP 依然 在 硬件 支持 的 并 行 和 同步 方面 提供 了 一 些 特有 的 优化 机 会 。 例 如 ,由 于 集成 更 加 紧 
密 ， 处 理 器 核 之 间 可 以 进行 更 快 的 数据 通信 ， 更 高 的 带宽 和 较 低 的 同步 开销 也 使 得 我 们 可 以 使 
用 带 推测 的 新 的 同步 和 编程 模型 。 在 本 章 中 ,我 们 还 将 介绍 一 个 基于 事务 内 存 (Transactional 
Memory，TM) 的 例子 ， 这 种 并 行 编程 模型 减轻 了 如 何 选择 最 佳 锁 粒 度 的 负担 ，TM 允许 程序 员 通 
过 将 大 量 的 指令 序列 组 合成 一 个 事务 ， 从 而 使 得 线程 在 粗 粒 度 级 别 进行 交互 。 本 章 还 对 TM 编程 
模型 进行 了 描述 ， 并 给 出 了 事务 失败 时 ， 为 协助 事务 提交 和 事务 回 滚 所 做 的 必要 硬件 修改 。 

并 行 化 是 一 项 非常 有 挑战 性 的 任务 。 线 程 级 推测 执行 (Thread-level speculation，TLS) 是 
一 种 硬件 辅助 并 行 化 的 方法 ， 该 方法 可 以 从 串 行 程序 中 生成 推测 执行 的 并 行 线程 ， 当 推测 失败 
时 ，TLS 需要 额外 的 硬件 支持 回 滚 到 之 前 的 状态 。 本 章 中 ,我 们 将 描述 TLS 是 如 何 用 于 推测 性 
的 并 行 循环 ， 在 支持 循环 的 推测 执行 时 ， 需 要 额外 的 硬件 来 检测 内 存 和 寄存 器 的 冲突 。 为 了 让 
读者 对 不 断 发 展 的 自动 并 行 化 领域 所 面临 的 挑战 和 机 遇 有 更 深层 次 的 理解 ， 本 章 将 详细 描述 相 
关 硬 件 结构 的 演变 。 最 后 ， 我 们 简要 介绍 一 些 能 够 有 效 利用 CMP 上 丰富 线程 资源 的 其 他 编程 
实例 ， 如 帮助 线程 (helper thread) 可 以 加 速 非 并 行 代码 的 执行 ， 元 余 线 程 (redundant thread) 
则 可 以 提高 系统 的 可 靠 性 。 

本 章 的 主要 内 容 如 下 : 

。 8.2 节 从 技术 和 性 能 (并行 性 ) 的 角度 描述 了 片上 多 处 理 器 研究 的 动机 。 

。 8.3 节 主 要 讲述 了 不 同 粒度 级 别 下 的 核 内 多 线程 ， 例 如 ， 块 式 多 线程 :交错 多 线程 以 

及 同时 多 线程 。 
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。 8. 4 节 主 要 讲述 了 同 构 和 异 构 处 理 器 核 组 成 的 CMP 架构 ， 包 括 对 应 的 互连网 络 和 cache 
架构 。 

。 8.5 节 主 要 讲述 编程 模型 一 一 共享 内 存 ， 事 务 内 存 ， 线 程 级 推测 执行 ， 帮 助 线程 以 及 
宛 余 线程 等 。 


8.2 CMP 的 基本 原理 


CMP 背后 的 驱动 力主 要 源 于 对 技术 的 需求 ， 自 2000 年 以 来 ， 单 核 处 理 器 的 性 能 提升 已 经 
越 来 越 困 难 ， 与 此 同时 ， 蔚 片上 所 能 集成 的 晶体 管 数量 还 在 持续 增加 ， 在 这 种 趋势 下 ， 多 处 理 
器 架构 得 以 快速 发 展 起 来 。 倘 若 并 行 编程 的 问题 能 够 很 妤 解决 ,那么 CMP 将 有 助 于 我 们 构建 
一 个 拥有 海量 线程 并 行 性 的 大 规模 计算 系统 。 


8. 2.1 .技术 趋势 


随 着 硅 技术 的 发 展 ， 单 个 芯片 上 集成 数 十 亿 晶 体 管 已 不 再 是 问题 ， 片 上 多 核 处 理 器 时 代 已 
经 到 来 ，CMP 将 很 快 用 于 所 有 的 计算 领域 : 从 服务 器 到 台式 机 ， 再 到 移动 设备 。 处 理 器 核 数 则 
从 双核 开始 ， 按 照 摩尔 定律 发 展 ， 未 来 有 望 呈 指数 增长 。 

,在 CMP 时 代 之 前 ， 唱 体 管 数目 的 增长 用 于 改善 单线 程 的 性 能 ， 主 要 是 用 来 开发 指令 级 并 
行 《ILP)， 具体 的 技术 包括 在 流水 线 中 支持 更 多 的 活动 指令 〈in- 人 ight instruction)、 更 深 的 流 
水 级 和 更 加 激进 的 推测 执行 等 技术 ,活动 指令 数 的 增长 通常 是 通过 增加 微 架 构 中 相应 部 件 的 大 
小 来 实现 的 ,例如 ，Intel 在 1995 年 推出 的 第 一 个 乱 序 处 理 器 (Pentium-Pro) 中 有 20 项 保留 
站 ,因此 它 最 多 允许 20 条 x86 指令 并 发 执行 ， 而 其 2000 年 推出 的 Pentium 4 处 理 器 能 够 同时 处 
理 128 条 活动 指令 ， 与 之 类 似 ， 在 一 个 周期 内 可 以 分 发 的 指令 数量 也 从 1 增长 到 4， 为 了 在 一 
个 周期 中 可 以 执行 多 条 指令 ， 寄 存 器 堆 、 大 的 发 射 和 load/store 队列 、 大 的 重 排序 缓冲 区 等 都 
需要 配备 多 个 读 写 端 口 ;， 随 着 这 些 结构 的 规模 和 端口 数量 的 增长 ， 它 们 所 占据 的 芯片 面积 更 是 
呈 平 方 关系 增长 。 流 水 级 方面 ， 越 深 的 流水 级 就 需要 越 好 的 分 支 预测 器 来 减少 错误 分 支 预测 所 
带 来 的 开销 ， 而 分 支 预测 错误 所 引起 的 开销 随 着 流水 级 深度 的 增加 呈 线 性 增长 。 此 外 ， 为 了 解 
决 内 存 墙 (memory-wall) 问题 ， 硬 件 支 持 的 数据 预 取 也 成 为 经 常 采 用 的 技术 。 所 有 上 面 提 到 
的 这 些微 架构 的 改进 ， 都 会 导致 晶体 管 资源 消耗 的 大 幅 增加 。 

历史 上 每 一 次 硅 工 艺 技术 的 进步 都 会 伴随 着 电源 电压 的 降低 ， 而 电源 电压 的 降低 可 以 减少 
芯片 功 耗 ,并 且 可 以 使 晶体 管内 部 的 电场 强度 维持 在 安全 范围 内 ， 因 此 ， 即 使 晶体 管 数量 增加 
了 ， 但 芯片 功 耗 仍旧 相对 较 低 。 但 近年 来 ， 电 源 电压 降低 的 速度 急剧 放 缓 ， 因 此 各 代 新 工艺 在 
降低 功 耗 方面 也 越 来 越 困 难 。 

图 8:1 显示 了 功 耗 和 性 能 (使 用 标准 SPEC 测量 得 出 ) 之 间 的 历史 演化 关系 ， 可 以 看 到 ， 
Pentium 4 处 理 器 的 功 耗 超出 i486 处 理 器 的 23 信 ， 但 其 提供 的 性 能 仅 比 i486 处 理 器 高 6 倍 。 事 
实 上 ,我 们 发 现 功 耗 是 按照 ,请 "的 比例 在 增长 ， 其 中 8 了 是 芯片 的 工作 频率 。 注 意 这 幅 图 假定 所 、 
有 的 处 理 器 使 用 相同 的 制造 工艺 ,但 是 它 考虑 了 随 着 时 间 的 发 展 ， 处 理 器 架构 和 电路 方面 所 提 
出 的 创新 。 很 明显 ， 这 种 增长 速率 远 远 低 于 第 2 章 式 (2.12) 中 给 出 的 理论 功 耗 的 增长 比例 
(f°)。 在 第 2 章 中 介绍 的 计算 性 能 的 方法 比较 简单 ; 它 只 计算 时 钟 频率 的 增长 ， 而 没有 考虑 任 
何 底层 微 架构 或 电路 方面 的 创新 。 然 而 实际 上 ， 每 一 代 工 艺 的 改进 都 会 同时 带 来 微 架构 方面 的 
巨大 改进 ， 进 而 提高 处 理 器 的 性 能 。 例 如 ，Pentium 4 推出 了 乱 序 执行 (0o0) ， 使 得 处 理 器 即 
使 在 cache 失效 后 仍 能 继续 执行 ， 此 外 ，Pentium 4 还 采用 了 扁 区 预 取 (sector prefetching) 技术 
来 将 数据 块 预 取 到 cache， 从 而 提高 内 存 系 统 的 性 能 。 与 之 类 似 ， 在 工艺 改进 时 ， 新 处 理 器 往 
往 较 上 一 代 处 理 器 都 会 在 分 支 预测 准确 度 方面 有 所 提升 。 最 后 ， 随 着 时 间 的 推移 ， 还 可 以 在 结 
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构 和 电路 级 别 上 采用 更 好 的 节能 技术 。 因 此 ， 考 虑 到 所 有 的 这 些 改进 ， 其 最 终 的 效果 就 是 ,不 
同 代 微 处 理 器 的 功 耗 以 一 个 相对 式 〈2. 12) 更 低 的 速率 在 增长 。 


i486 Pentium 





0 1 2 3 4 5 6 7 8 
标量 性 能 
图 8-1 ” 功 耗 和 性 能 之 间 的 历史 演化 关系 


尽管 1 的 功 耗 增长 速率 相对 于 最 坏 情 况 下 (f° ) 的 增长 速率 已 经 好 很 多 了 ,但 是 这 个 增 
长 速度 仍旧 很 快 。 芯 片 行业 已 经 意识 到 ， 在 这 种 功 耗 增长 速率 下 ,继续 开发 ILP 是 不 可 持续 
的 ， 此 外 ， 市 场 越 来 越 倾向 于 提高 硬件 设备 的 可 移动 性 ， 这 会 对 处 理 器 功 耗 的 限制 更 加 严格 ， 
这 对 技术 也 提出 了 更 高 的 挑战 。 面 对 不 断 增 长 的 晶体 管 数量 ,但 却 相对 固定 、 甚 至 不 断 下 降 的 
功 耗 上 限 ， 芯 片 行业 已 经 不 得 不 减少 ILP 技术 的 开发 ， 而 转向 线程 级 并 行 《TLP) 技术 ,以 此 
来 提高 微 处 理 器 的 性 能 。 


8. 2 机 遇 


CMP 是 中 小 规模 的 多 处 理 器 系统 ,但 是 它 成 本 低 ， 片 上 集成 的 功能 完备 ， 因 此 ， 它 的 出 现 
使 得 以 低 成 本 和 低 复杂 度 构 建 一 个 海量 线程 的 大 规模 多 处 理 器 系统 的 设想 成 为 可 能 。 多 线程 所 
带 来 的 并 行 性 可 以 在 各 个 层面 (系统 、 人 处理 器 和 处 理 器 核 ) 上 加 以 利用 。 在 系统 层面 ;TLP 的 
开发 利用 比 CMP 早 很 多 年 ， 它 是 在 SMP 系统 环境 下 开发 实现 的 ，SMP 下 的 多 个 处 理 器 芯片 逻 
辑 上 共享 物理 内 存 ， 并 且 由 专门 的 结构 互 连 。SMP 系统 在 高 性 能 计算 (工程 和 科学 应 用 ) 以 
及 商业 (数据 库 和 Web 应 用 ) 环境 中 可 谓 无 处 不 在 ， 而 这 些 领域 的 应 用 本 身 也 通常 具有 大 量 
的 、 或 易于 开发 的 并 行 性 。 

SMP 和 CMP 的 区 别 在 于 其 集成 水 平 ， 在 CMP 中 ,多 个 处 理 器 核 紧密 集成 在 同一 芯片 二 ， 
这 不 仅 实现 了 高 效 的 内 存 共 享 ， 也 实现 了 物理 资源 (如 cache 和 协 处 理 器 ) 的 共享 , ;多 个 处 理 
器 核 之 间 的 紧密 集成 是 通过 片上 互连网 络 实现 的 ， 这 种 片上 互连网 络 实 现时 只 是 片上 金属 布线 
层 的 延伸 ， 因 此 可 以 极 大 地 降低 处 理 器 核 之 间 的 通信 延迟 ,通常 可 以 从 SMP 中 的 数 百 个 时 钟 
周期 降 为 数 十 个 时 钟 周期 。CMP 中 处 理 器 核 之 间 的 通信 一 般 是 通过 共享 内 存 和 共享 cache 来 实 
现 的 。 和 SMP 系统 主要 针对 特定 的 高 端 应 用 领域 不 同 ，CMP 是 面向 大 众 市 场 的 量 产 产品 ， 它 
将 并 行 计算 的 概念 引入 到 了 数字 革命 的 方方面面 中 ,包括 个 人 电脑 (PC) 和 移动 设备 等 ， 在 
这 类 设备 中 以 多 进程 、 多 任务 等 形式 存在 着 大 量 并 行 性 。 

核 内 多 线程 进一步 提高 了 并 行 性 ， 它 将 处 理 器 核资 源 在 多 个 并 发 线程 之 间 进 行 分 时 复 用 ， 
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从 而 提高 了 处 理 器 资源 的 利用 效率 。 运 行 在 同一 个 处 理 器 核 上 的 线程 之 间 的 通信 大 多 通过 共享 
内 存 以 及 处 理 器 核 内 的 一 级 cache 来 完成 ， 因 此 ， 通 信 效 率 很 高 。 核 内 多 线程 的 主要 缺点 是 ， 
由 于 多 个 线程 对 处 理 器 核资 源 的 竞争 十 分 激烈 ， 因 此 单个 线程 的 执行 速度 会 受到 影响 。 

通过 开发 3 个 层次 (系统 ， 人 处理 器 ， 处 理 器 核 ) 的 并 行 性 ， 我 们 可 以 通过 海量 的 线程 并 行 
来 构建 强大 的 计算 系统 ， 这 种 方式 实现 简单 并 且 成 本 很 低 。 举 个 例子 ， 假 定 每 个 核 有 8 个 线 
程 ， 每 个 处 理 器 有 8 个 核 ， 这 样 的 话 ， 使 用 32 个 处 理 器 可 以 同时 运行 2048 个 线程 。 

目前 我 们 讨论 的 CMP 架构 都 是 对 称 式 (统一 内 存 访问 ) 共享 内 存 多 处 理 器 系统 ，L2 cache 
共享 ，L1 cache 核 内 私有 。 但 是 ， 随 着 晶体 管 数 量 和 处 理 器 核 数 量 的 增长 ，CMP 架构 将 演变 成 
类 似 于 第 5 章 中 展示 的 结构 ， 甚 至 可 以 预期 ， 在 不 久 ' 的 将 来 ， 集 成 到 片上 的 cc- NUMA、 
COMA\ 层 次 化 结构 ， 甚 至 是 消息 传递 机 群 系统 都 可 能 出 现 不 过 ， 在 本 章 中 ,我 们 主要 介绍 现 
在 主流 的 CMP 以 及 核 内 多 线程 结构 ， 首 先 介绍 核 内 多 线程 。 


8.3 核 内 多 线程 


核 内 多 线程 是 一 种 在 单个 处 理 器 核 内 支持 多 个 线程 并 发 执行 的 机 制 ， 它 的 主要 目的 是 : 在 
面 对 各 种 复杂 的 长 延迟 事件 时 ， 能 够 最 大 化 硬件 的 利用 率 和 吞吐 量 。 这 实际 上 是 一 个 非常 古老 
的 思想 ， 甚 至 可 以 追溯 到 早期 的 商业 电脑 。 


8. 3.1 软件 支持 的 多 线程 


计算 资源 一 直 以 来 都 是 非常 珍贵 的 ， 在 20 世纪 70 年 代 ， 即 早期 计算 时 代 ， 计 算 资源 的 珍 
贵 是 由 于 计算 系统 的 制造 成 本 非常 高 。 此 外 ,， 由 于 受到 机 械 设备 速度 的 限制 ， 诸 如 磁盘 、 磁 鼓 
或 磁带 驱动 器 之 类 的 WO 设备 的 访问 速度 一 直 比 电子 设备 要 慢 好 几 个 数量 级 ， 因 此 ， 从 早期 的 
单 处 理 器 系统 开始 ， 分 时 操作 系统 就 已 经 通过 并 行 运行 大 量 进 程 来 提升 计算 资源 的 共享 和 分 时 
复 用 ,其 目标 就 是 最 大 程度 地 把 这 些 昂贵 硬件 资源 利用 起 来 。 通 常 来 讲 ， 硬件 资源 被 用 来 做 的 
有 用 工作 越 多 ， 那么 单位 时 间 和 给 定 成 本 下 所 能 完成 的 工作 也 就 越 多 。 

在 分 时 系统 中 ， 活 跃 的 进程 会 被 分 配 到 内 存 资源 中 ， 一旦 准备 就 绪 ， 就 可 以 运行 。 分 配给 
活跃 进程 的 典型 内 存 资源 是 虚拟 内 存 空 间 (具体 指 的 是 一 组 页 表 ) 和 一 个 保存 进程 状态 的 进 
程控 制 块 。 就 绪 进 程 必须 是 活路 的 ， 目 一旦 处 理 器 资源 对 其 可 用 ， 就 可 以 立即 执行 ， 当 运行 进 
程 由 于 长 时 间 的 延迟 操作 而 发 生 阻塞 时 ， 例 如 碰 到 磁盘 文件 的 读 取 ， 页面 错 误 ， 或 者 是 需要 长 
时 间 等 待 的 失效 同步 操作 等 ， 操 作 系 统 会 将 阻塞 进程 切换 出 来 ， 并 将 它 从 就 绪 进程 列表 中 删 
除 ， 重 新 放置 到 等 等 队列， 并 从 就 绪 列 表 中 调度 另 一 个 进程 执行 。 当 正在 运行 的 进程 没有 碰 到 
任何 长 延迟 事件 时 ， 为 了 确保 硬件 资源 的 公平 共享 ， 操 作 系统 会 以 轮 询 的 方式 给 每 个 运行 进程 
分 配 一 个 时 间 片 段 或 最 大 执行 时 间 。 

当 磁 到 长 延迟 操作 ， 时 间 片 耗 尽 ， 或 者 接收 到 更 高 级 别 中 断 或 异常 时 ， 操 作 系统 都 会 抢占 
当前 运行 进程 ,这 个 过 程 通常 称 为 上 下 文 切 换 ; 上 下 文 切换 需要 以 下 几 个 步骤 : 

。 阻塞 正在 运行 的 进程 ， 并 刷 空 流水 线 。 

。 启动 操作 系统 内 核 ; 将 当前 进程 的 结构 状态 保存 到 进程 控制 块 中 ， 并 开始 执行 相应 的 

中 断 处 理 程序 。 其 中 进程 的 结构 状态 包括 寄存 器 、 程 序 计 数 器 以 及 其 他 状态 寄存 器 
(如 中 断 状 态 寄存 器 、 条 件 码 寄存 器 和 页 表 基 址 寄存 器 等 ) 。 

。 内 核 恢复 处 理 器 中 另 一 个 已 经 就 绪 进 程 的 架构 状态 ， 并 启动 该 进程 执行 。 

通常 情况 下 ， 上 下 文 切 换 需 要 数 百 个 时 钟 周期 ， 因 此 ， 操 作 系 统 只 有 在 响应 长 时 间 的 延迟 
事件 时 才 会 触发 上 下 文 切换 ， 以 便 分 推 上 下 文 信息 保存 和 恢复 的 开销 。 

软件 多 线程 仅 需 要 少量 的 或 完全 不 需要 硬件 支持 ,实际 上 ， 这 种 机 制 通常 完全 由 软件 来 实 
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现 ， 比 如 在 Windows 和 Linux 内 核 中 实现 。 软 件 上 下 文 切换 的 好 处 在 于 高 度 灵 活 ， 在 上 下 文 切 
换 时 ， 操 作 系 统 可 以 确定 哪些 寄存 器 是 进程 真正 修改 了 的 ;然后 选择 性 地 保存 和 恢复 那些 在 架 
构 上 可 见 状态 的 一 个 子 集 。 


8. 3.2 硬件 支持 的 多 线程 


近年 来 ， 随 着 处 理 器 和 内 存 速度 之 间 的 差距 逐渐 扩大 (内 存 墙 ) ， 处 理 器 在 等 待 内 存 事件 
完成 时 空闲 的 时 间 也 越 来 越 长 。 在 20 世纪 90 年 代 ， 尽 管 乱 序 执行 、 推 测 执行 和 内 存 预 取 等 技 
术 在 隐藏 访 存 延 迟 方面 确实 起 到 了 一 定 效果 ， 但 由 于 当时 cache 失效 的 问题 过 于 严重 ， 导 致 处 
理 器 资源 〈 比 如 功能 部 件 ) 依然 难以 充分 利用 。 因 此 ， 从 提高 指令 吞吐 率 的 角度 来 看 ， 当 发 
生 相 对 较 短 的 延迟 事件 时 ， 暂 时 挂 起 当前 执行 线程 也 是 有 助 于 提高 效率 的 。 这 些 较 短 延迟 事件 
包括 : 

。 失败 的 线程 同步 ; 

e Ll 或 L2 cache 失效 ; 

。 TLB 失效 ; 

。 长 延迟 指令 (如 需要 协 处 理 器 处 理 的 指令 ); 

。 异常 。 

需要 注意 的 是 ， 从 内 核 进 行进 程 和 线程 调度 的 角度 来 讲 ， 暂 时 挂 起 的 线程 仍然 是 就 绪 的 ， 
但 是 在 处 理 器 上 真正 调度 它 执 行 之 前 ， 该 线程 还 需要 等 待 一 个 未 完成 的 事件 。 硬 件 支 持 的 多 个 
线程 动态 共享 一 个 处 理 器 核 的 技术 称 为 核 内 多 线程 ， 处 理 器 核 中 的 每 个 线程 都 运行 在 一 个 硬件 
线程 上 下 文 环境 中 ， 该 环境 包含 一 组 能 够 支持 单个 运行 线程 执行 和 切换 的 硬件 资源 。 操 作 系 统 
内 核 将 一 个 线程 上 下 文 看 成 是 一 个 处 理 器 资源 ， 也 即将 其 看 成 一 个 单线 程 的 处 理 器 核 ， 因 此 支 
持 核 内 多 线程 时 ， 操 作 系 统 并 不 需要 做 什么 太 大 改动 。 在 本 章 中 我 们 使 用 下 面 这 些 术 语 : 

。 当 线 程 或 进程 已 经 分 配 到 内 存 资源 (如 页 表 ) 时 ， 则 称 它 是 活跃 的 (active), 活跃 的 

线程 可 能 处 于 阻塞 (blocked) 或 就 绪 (ready) 状态 。 

e 当 活 路 线程 在 等 待 操 作 系 统 事 件 .( 如 0) 的 完成 或 信号 量 的 释放 时 ， 则 称 它 是 阻塞 

” “的 ; 当 一 个 线程 已 经 准备 好 并 且 可 以 分 配 线程 上 下 文 时 ， 则 称 它 是 就 绪 的 (未 阻 
塞 的 ) 。 
。 当 就 绪 线 程 分 配 到 线程 上 下 文 ， 生 没有 因为 长 时 间 延 迟 事 件 而 被 挂 起 时 ,我 们 称 之 为 
执行 线程 (running thread)。 多 个 执行 线程 之 间 可 以 动态 共享 处 理 器 核资 源 ， 直 到 磁 到 
长 时 间 延 迟 事件 ， 此 时 ,由 处 理 器 核 中 的 线程 选择 逻辑 将 其 挂 起 。 

五 级 流水 线 中 cache 失效 延迟 的 影响 “在 单线 程 的 五 级 流水 线 中 ， 当 cache 失效 
时 ， 处 理 器 核 的 执行 会 被 冻结 住 。 举 个 例子 ,假定 每 20 个 时 钟 周期 会 发 生 一 次 cache 失效 ， 如 
果 LI cache 失效 ，L2 cache 命中 ， 那 么 延迟 为 20 个 周期 ， 如 果 L2 cache 也 失效 ,那么 延迟 为 
200 个 周期 ， 又 假定 每 经 过 200 个 周期 的 计算 之 后 会 出 现 一 次 [2 cache 失效 。 

图 8-2 给 出 cache 失效 的 时 间 轴 。 假 定 无 cache 失效 时 的 CPI 是 1， 这 意味 着 Ll cache 中 每 
条 指令 的 失效 数 (Misses Per Instructions，MPI) 是 0.05，L2 cache 的 MPI 是 0.005。 如 果 考 虑 
cache 失效 的 延迟 ， 那 么 实际 的 CPI 是 多 少 ? 

处 理 器 核 以 20 个 周期 的 时 间 间 隔 内 轮流 执行 计算 以 及 Ll cache 失效 ,反复 执行 10 次 , 直 
到 磁 到 L2 cache 失效 ， 然 后 处 理 器 核 暂停 200 个 周期 。 因 此 ， 执 行 200 条 指令 的 总 时 间 为 10 x 
40 +200 = 600 个 周期 ， 进 而 得 到 CPI 为 600/200 =3， 这 个 数字 是 不 考虑 cache 失效 时 CPI 的 
3 倍 。 
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b) \ 
图 8-2 -单线 程 五 级 流水 线 (a) 和 执行 时 间 轴 (b) 


例 8. 1 中 的 数字 并 不 夸张 ， 可见 ， 在 等 待 内 存 的 时 候 ， 处 理 器 核 浪费 了 三 分 之 二 的 计算 吞 
吐 能 力 。 在 这 段 等 待 的 时 间 里 ， 处 理 器 核 本 可 以 通过 切换 到 其 他 的 线程 来 执行 的 。 但 是 传统 的 
软件 上 下 文 并 不 适合 这 种 场合 ， 因 为 一 级 cache 和 二 级 cache 失效 引起 的 阻塞 时 间 太 短 ， 都 不 
足以 抵消 上 下 文 切换 引入 的 开销 。 认 识 到 这 一 点 后 ， 现 在 的 处 理 器 在 面 对 频 繁 发生 的 cache 失 
效 时 ， 都 在 硬件 上 支持 快速 的 上 下 文 切 换 和 高 效 的 多 线程 。 硬 件 支 持 机 制 应 当 避 免 每 次 出 现 
cache 失效 时 都 进行 机 器 状态 的 保存 和 恢复 ， 并 且 ， 还 应 支持 线程 之 间 的 快速 切换 机 制 。 

硬件 支持 的 核 内 多 线程 主要 有 两 种 基本 类 型 : 块 式 ( 粗 粒度 ) 多 线程 和 交错 ( 细 粒 度 ) 
多 线程 。 本 


8. 3.3 ， 块 式 ( 粗 粒度 ) 多 线程 


在 块 式 多 线程 中 ， 只 有 当 处 理 器 核 上 的 某 个 线程 遇 到 长 时 间 延 迟 事件 时 ， 才 切换 到 其 他 线 
程 执行 ， 这 种 方式 在 某 种 程度 上 类 似 于 软件 多 线程 ， 但 是 规模 不 同 。 

五 级 流水 线 上 的 块 式 多 线程 | 

图 8-3a 给 出 了 一 种 在 五 级 流水 线 上 支持 两 路 块 式 多 线程 的 方法 ， 可 以 看 到 ， 增 加 的 开销 
是 比较 适中 的 。 在 此 架构 中 ， 当 Ll cache 失效 发 生 时 ,处 理 器 核 并 不 阻塞 ， 相 反 ， 在 指令 或 数 
据 cache 失效 时 会 引发 一 个 低级 别 的 硬件 异常 ， 该 异常 在 写 回 阶段 被 处 理 ， 处 理 方式 与 常规 五 
级 流水 线 的 软件 异常 处 理 机 制 相 同 ， 发 生 失 效 的 指令 以 及 处 于 还 ，ID，EX 和 MEM 阶段 的 所 有 
指令 都 被 刷 掉 , 在 这 个 周期 结束 时 ,i 发 生 失效 的 线程 的 程序 计数 器 (PC) 重 置 为 那 条 cache 失 
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b) 
图 8-3” 双 线程 的 五 级 流水 线 (a) 和 执行 时 间 轴 (b) 
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效 指令 的 地 址 〈 请 记 住 ， 每 条 指令 需要 带 上 自身 的 PC， 以便 能 从 软件 异常 中 恢复 ) ， 与 此 同 
时 ， 在 正 阶段， 线程 选择 器 不 再 从 出 现 失效 的 线程 PC 中 进行 选择 ， 而 是 在 下 一 个 时 钟 周期 中 
选择 备用 线程 来 进行 取 指 ， 在 此 过 程 中 ， 总 共 浪 费 了 5 个 时 钟 周 期 。 

除了 支持 清除 流水 线 指令 以 及 线程 选择 之 外 ,还 需要 能 够 保存 线程 对 应 的 架构 状态 ， 以 便 
处 理 器 核能 从 一 个 线程 的 状态 迅速 切换 到 另 一 个 线程 的 状态 。 当 进程 或 线程 发 生 阻塞 时 ， 其 架 
构 状 态 保存 在 进程 或 线程 控制 块 中 ,例如 ， 一 个 两 线程 处 理 器 核 必须 有 两 个 程序 计数 器 、 两 组 
寄存 器 、 两 个 页 基 址 寄存 器 以 及 两 组 条 件 / 中 断 标 志 位 。 简 单 起 见 ， 图 8-3 只 是 显示 了 两 份 寄 
存 器 堆 和 程序 计数 器 ， 每 条 指令 中 都 带 一 个 标识 位 ， 用 于 确定 对 应 的 线程 ， 并 能 够 选择 其 架构 
状态 ， 这 个 标识 位 通常 称 为 TID ， 或 线程 上 下 文 也 。 另 一 方面 ，L1 和 12 cache 空间 是 在 线程 间 
共享 的 ， 为 了 避免 线程 间 干 扰 导 致 的 失效 ， 两 个 线程 的 TLB 表 可 以 是 彼此 分 离 的 。 

在 上 面 的 简单 实现 机 制 中 ， 控 制 取 指 的 线程 选择 器 也 是 非常 简单 的 ， 它 仅 由 底层 的 硬件 异 
常 机 制 驱动 。 线 程 只 有 在 遇 到 触发 硬件 异常 事件 时 才 发 生 切 换 ， 当 一 个 线程 挂 起 ,并 且 其 他 线 
程 遇 到 长 时 间 延 迟 事件 时 ， 挂 起 的 线程 会 尝试 重新 开始 执行 ,但 是 如 果 之 前 的 失效 处 理 尚 未 完 
成 ， 那么 重新 执行 时 还 会 再 次 发 生 失 效 ， 此 时 线程 会 再 次 挂 起 。 这 样 ， 两 个 线程 会 不 断 地 重 试 
执行 ， 直 到 其 中 一 个 执行 成 功 为 止 。 如 果 我 们 使 用 更 复杂 的 线程 选择 器 的 话 (如 图 8-3 所 示 )， 
线程 可 能 会 一 直 停止 住 ， 直 到 cache 失效 已 经 处 理 完成 ， 然 后 ， 线 程 被 重新 插入 运行 线程 池 中 ， 
并 最 终 由 线程 选择 器 选 定 执行 。 在 复杂 的 线程 选择 器 中 ， 也 可 以 使 用 复杂 一 点 的 线程 选择 
策略 。 

两 路 块 式 多 线程 五 级 流水 中 cache 失效 的 影响 ”图 8-3b 给 出 了 共享 五 级 流水 的 两 
个 线程 的 执行 时 间 轴 。 线 程 TI 执行 20 个 周期 (图 中 的 compute) ， 直 到 它 遇 到 Ll cache 失效 ， 
处 理 需 要 20 个 周期 的 延迟 ， 此 时 ， 线 程 Tl 挂 起 ， 线 程 了 开始 执行 ， 线程 切换 需要 几 个 周期 
( 称 为 “切换 开销 ”) 。 线 程 TIL 和 T2 都 不 断 在 compute 和 Ll cache 失效 之 间 进 行 交替 ， 这 使 得 
处 理 器 核 得 以 充分 利用 ， 因 为 它 可 以 将 一 个 线程 的 执行 时 间 和 男 一 个 线程 的 Ll cache 失效 处 理 
时 间 重 至 在 一 起 。 此 后 ， 当 线程 T1 遇 到 一 个 200 周期 延迟 的 L2 cache 失效 时 ,线程 T2 开始 执 
行 ， 但 它 也 遇 到 LI1 cache 失效 时 ， 而 且 可 能 L2 cache 中 也 同样 失效 ， 此 时 处 理 器 核 会 出 现 空 
闲 ， 因 为 线程 TI 和 T2 都 在 等 待 它们 的 cache 失效 处 理 完 成 ， 这 有 段 时 间 在 图 中 记 为 “空闲 时 
间 ”。 当 然 ， 要 支持 这 种 方案 的 话 ，L1 和 L2 cache 必须 是 无 锁 (lockup-free)- 的 ， 并 且 能 够 同 
时 处 理 2 个 cache 访问 : 可 以 是 一 个 命中 一 个 失效 ， 也 可 以 是 两 个 都 失效 。 

因为 L2 失效 的 延迟 较 长 ， 为 了 提高 处 理 器 核 利 用 率 ， 需 要 提供 更 多 的 线程 上 下 文 来 共享 
处 理 器 核 。 随 着 线程 数 的 增多 ， 部 分 机 制 〈 如 线程 选择 ) 也 变 得 更 加 复杂 ， 且 线程 占用 的 体 
系 结构 资源 也 随 着 线程 数目 的 增长 而 增加 ,诸如 cache 和 TLB 这 样 的 共享 资源 大 小 也 必须 等 比 
例 增加 ， 以 容纳 线程 数 增多 时 的 工作 集 。 

8-3b 的 执行 时 间 轴 只 是 为 了 便于 解释 而 虚构 的 示意 图 。 在 实际 的 处 理 器 核 中 ，cache 失 
效 或 其 他 长 延迟 事件 的 发 生 时 间 是 千变万化 的 ， 且 这 些 事件 的 延迟 时 间 也 是 可 变 的 ,这 导致 的 
结果 是 ， 可 以 重 释 执行 的 时 间 有 段 是 不 会 像 图 中 所 展示 的 那样 完美 。 例 如 ,线程 TI 可 能 遇 到 Ll 
cache 失效 ， 然 后 线程 12 被 选中 ， 并 马上 也 发 生 失 效 ， 在 这 种 情况 下 ， 两 个 Ll cache 失效 一 加 
在 同一 时 刻 了 ， 此 时 处 理 器 将 处 于 闲置 状态 。 处 理 器 运行 和 发 生 cache 失效 次 数 的 不 同 会 导致 
最 终 性 能 的 不 同 ， 但 架构 上 的 具体 实现 机 制 并 没有 区 别 。 a 

乱 序 执行 处 理 器 核 上 的 块 式 多 线程 

在 五 级 流水 线 中 ， 块 式 多 线程 很 容易 实现 ， 存 在 的 主要 问题 是 切换 的 开销 。 这 个 开销 限制 
了 引起 切换 的 事件 必须 是 长 延迟 事件 。 由 于 处 理 器 核 通 常 无 法 在 同一 时 刻 执行 多 个 线程 的 指 
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令 ， 因 此 在 进行 线程 切换 时 ， 必 须 清空 掉 流 水 线 中 属于 被 切换 线程 的 所 有 指令 。 
清空 流水 线 的 成 本 主要 包括 两 部 分 : (1) 按 线程 中 的 指令 顺序 提交 在 触发 线程 切换 事件 
之 前 的 所 有 指令 ; (2) 清空 该 事件 之 后 的 所 有 指令 。 一 般 来 讲 ， 在 深度 流水 、 乱 序 执行 (Out- 
of-order，0o0) 的 处 理 器 中 ， 这 个 清空 流水 线 的 时 间 开 销 远 远 不 止 5 个 周期 。 在 乱 序 执行 的 机 
器 中 ，cache 失效 异常 会 在 重 排序 缓冲 区 的 顶部 被 触发 ,后面 的 大 量 未 提交 指令 需要 清空 ， 这 
导致 大 量 工作 被 取消 。 然 后 下 一 个 运行 线程 必须 重 填 流水 线 。 因 此 ， 切 换 开销 很 容易 就 达到 几 
十 个 时 钟 周期 。 要 在 乱 序 执行 处 理 器 中 使 用 块 式 多 线程 ， 除 了 那些 保存 架构 状态 的 部 件 之 外 ， 
还 有 一 些 其 他 部 件 也 需要 进行 复制 ， 例 如， 为 了 避免 线程 之 间 预 测 的 干扰 ， 分 支 预测 器 和 TLB 
也 可 能 需要 复制 多 份 。 \ 4 
支持 两 路 块 式 多 线程 的 乱 序 处 理 器 上 的 执行 情况 “考虑 两 个 线程 片段 ， 每 个 线程 
拥有 6 条 指令 的 执行 过 程 。 图 8-4a 给 出 了 两 个 线程 片段 的 依赖 图 ， 图 中 展示 了 两 个 线程 内 指 
令 的 相关 性 和 执行 延迟 。 比 如 ， 线 程 1 执行 指令 X5 需要 1 个 或 20 个 周期 ，X5 在 执行 过 程 中 
需要 进行 一 次 访 存 ，cache 命中 则 需要 1 个 周期 ，cache 失效 则 需要 20 个 周期 。 
线程 2 





a ) 带 执行 延迟 的 两 线程 依赖 图 
IFQ (T1) 


X6 X5 X4 X3 X2 X1 h 
X1-X2 X3-X4 X5*-X6 Y1-Y2 Y3-Y4 Y5-Y6 X5-X6 ( 块 式 多 线程 ) 


X1-Y1 X2-Y2 X3-Y3 X4-Y4 X5-Y5* X6-Y6 (同步 多 线程 ) 
Y6Y5Y4Y3Y2Y1 


IFQ (T2) 
b ) 两 路 多 线程 实现 机 制 中 的 指令 分 发 顺序 


图 8-4 块 式 多 线程 和 同时 多 线程 中 使 用 的 线程 示例 


假定 处 理 器 是 两 路 多 线程 、 且 带 推测 调度 的 乱 序 执行 结构 ， 每 个 线程 都 有 自己 的 取 指 队列 、 
(IFQ) ,每 个 周期 可 以 分 别 完成 两 条 指令 的 取 指 、 译 码 或 者 分 发 操作 ， 每 周期 也 可 以 最 多 提交 
两 条 指令 ,公共 数据 总 线 (CDB) 每 个 周期 可 以 前 递 两 个 结果 数据 。 两 个 线程 共享 一 个 具有 4 
项 的 发 射 队列 ， 每 个 周期 最 多 可 以 从 中 调度 两 条 指令 。 寄 存 器 端口 和 功能 单元 数量 足够 ， 不 会 
引起 结构 冲突 。 基 于 上 述 假 定 ， 并 且 先 执行 线程 1， 请 给 出 这 种 情况 下 块 式 多 线程 的 调度 
过 程 。 

图 8-4b 显示 了 块 式 多 线程 的 分 发 顺序 。 分 发 单元 从 两 个 正 Q 中 选 出 要 分 发 的 指令 ， 在 块 
式 多 线程 的 情况 下 ,线程 1 的 指令 先 被 分 发 ,然后 再 分 发 线程 2 的 指令 。 在 第 一 次 执行 时 ，X5 
指令 会 引发 一 次 线程 切换 。 由 于 切换 时 线程 1 的 X5 和 X6 指令 会 被 刷 掉 ， 因 此 当 线 程 2 执行 完 
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成 后 ，X5 和 X6 需要 重新 执行 ， 当 X5 指令 重新 执行 时 ， 只 需要 一 个 时 钟 周期 ， 具 体 调度 情况 
见 表 8-1。 


表 8-1 块 式 多 线程 下 的 推测 调度 


指令 分 发 开始 | 完成 
(延迟 ) | (发 射 Q) | 读 宕 存 器 |。 扩 行 。| “执行 提交 (T1) | ;提交 (T2) 
TT 


0) | WR 


X3(4) 
X4(2) 
X5(1，20) 
X6(1) 
Y1(2) 


Ey 
rn rE | 洛 科 于 2 0 | 
Y3(2) 16(3) 21 22 23 24 Te 26 
Y4(2) 16(4) 23 25 26 27 28 
rr es 
I 


(0) | 33) | 3 | 3% | 3 | 3 | % | 7 | 
Wt) | 和 | | ab 玫 汪 


在 分 发 对 应 列 中 ， 括 号 内 的 数值 表示 在 分 发 结束 时 ， 单 个 发 射 队 列 中 被 占用 的 项 数 ， 这 个 
值 不 能 大 于 4 (单个 发 射 队列 中 的 总 项 数 ) ， 从 指令 分 发 到 指令 提交 之 前 ， 相 应 项 都 需要 保存 
在 发 射 队 列 中 。 指 令 分 发 需要 等 待 发 射 队列 中 有 两 个 空 项 时 再 进行 ， 以 便 可 以 将 分 发 的 两 条 指 
令 对 应 项 放 人 发 射 队列 中 。 

开始 时 ， 处 理 器 和 单线 程 操作 类 似 ， 直 到 线程 1 执行 到 指令 X5 ， 此 时 ， 它 检测 到 一 个 线 
程 切换 事件 〈 在 第 12 个 周期 ) ， 于 是 在 第 13 个 周期 产生 一 个 硬件 异常 ， 在 第 14 个 周期 清空 后 
端的 流水 级 ， 在 第 15 个 周期 开始 从 线程 2 分 发 指令 ， 此 时 所 有 的 发 射 队列 项 都 是 空 的 ， 在 线 
程 2 执行 完成 后 ， 线 程 1 的 指令 X5 和 X6 重新 执行 ， 在 重新 执行 之 前 需要 等 待 到 第 32 个 周期 ， 
此 时 线程 2 的 所 有 指令 都 已 经 提交 完成 。 

除了 两 次 清空 流水 线 和 重新 执行 两 条 指令 的 开销 之 外 ， 指 令 分 发 还 常常 受到 其 他 因素 的 影 
响 而 阻塞 ， 比 如 ， 由 于 线程 内 部 的 数据 冲突 ， 指 令 可 能 需要 长 时 间 占 用 发 射 队 列 项 ， 这 也 会 影 
响 指令 分 发 速度 。 在 这 个 例子 中 ，12 条 指令 的 发 射 需要 32 ( 即 34 -2) 个 周期 ， 发 射 速度 为 
每 个 周期 12/32 =0. 375 条 指令 ， 即 \CPI 约 为 2.7， 这 个 CPI 值 远 远 好 于 单线 程 处 理 器 核对 应 的 
值 。 在 单线 程 处 理 器 核 中 ， 第 一 个 线程 需要 处 理 完 cache 失效 后 ， 第 二 个 线程 才能 执行 。 本 

支持 块 式 多 线程 的 处 理 器 实例 

块 式 多 线程 在 短 流水 线 和 顺序 执行 的 机 器 中 都 已 经 实现 。IBM 的 iSeries SSTAR 处 理 器 就 是 
块 式 多 线程 处 理 器 的 例子 ，IBM 将 此 特征 称 为 硬件 多 线程 (HMT) 。SStar 是 用 于 运行 商业 应 用 
负载 的 服务 器 处 理 器 ， 它 是 一 个 五 级 流水 线 四 路 超标 量 的 顺序 执行 处 理 器 。 由 于 商业 应 用 负载 
线程 数 多 ， 但 其 cache 失效 率 非 常 高 ， 因 此 HMT 主要 在 Ll 或 L2 cache 失效 时 切换 线程 。 为 了 
最 小 化 处 理 器 规模 和 设计 复杂 度 ，HTM 只 支持 两 个 线程 : 一 个 前 台 线程 和 一 个 后 台 线 程 。 控 
制 寄 存 器 指定 了 线程 上 下 文 切换 的 条 件 ， 比 如 LI1 cache 失效 、L2 cache 失效 以 及 线程 切换 超时 
等 。 在 后 一 种 情况 下 ， 即 使 线程 没有 遇 到 cache 失效 ， 它 也 会 在 预定 时 间 后 强制 放弃 对 处 理 器 
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核 的 占用 ， 这 种 策略 为 线程 之 间 的 公平 性 提供 了 保障 。 

当前 台 线 程 遇 到 Ll cache 失效 时 发 生 线程 切换 ， 此 时 后 台 线 程 有 可 能 已 经 在 等 待 另 一 个 
cache 失效 ; 如 果 后 台 线 程 正 在 等 待 L2.cache 失效 ,那么 前 台 线 程 此 时 将 不 会 挂 起 ， 而 是 先 阻 
塞 流水 线 ， 直 到 数据 从 工 1 cache 返回 。 如 果 前 台 线 程 也 遇 到 L2 cache 失效 ， 则 会 进行 线程 切 
换 ， 即 使 这 种 情景 下 两 个 线程 都 需要 等 待 各 自 L2 cache 失效 的 完成 。 每 个 线程 保存 其 自身 的 架 
构 状 态 ， 但 功能 单元 、 流 水 线 资源 、cache 和 -TLB 等 资源 是 所 有 线程 共享 的 ， 当 发 生 Ll Deache 
失效 时 ， 线 程 在 写 回 阶段 发 生 切 换 。 由 于 后 台 线 程 的 指令 在 其 对 应 的 指令 缓冲 区 中 已 经 缓存 好 
并 完成 预 译 码 ， 线 程 切换 的 开销 只 有 三 个 周期 。HMT 通过 最 小 化 线程 独立 的 状态 副本 和 最 大 
化 资源 共享 ， 使 得 处 理 器 规模 开销 控制 在 5% 以 下 ， 且 对 时 钟 频率 的 影响 小 于 1% 。 

块 式 多 线程 的 另 一 个 例子 是 Intel 的 Montecito 处 理 器 ,这 是 一 个 双核 结构 ， 每 个 处 理 器 核 
有 两 个 线程 ,支持 IA-64 (Itanium 2) 指令 集 架 构 (EPIC 架构 ) 。 每 个 处 理 器 核 都 是 顺序 执行 ， 
长 延迟 的 L3 cache 失效 将 导致 片 外 的 存储 访问 ， 这 种 长 延迟 很 难 通过 线程 内 的 其 他 就 绪 指令 来 
隐藏 ， 因 此 ，Montecito 在 每 个 处 理 器 核 中 使 用 块 式 多 线程 ， 当 发 生 诸 如 L3 cache 失效 /数据 回 
填 、 时 间 片 耗 尽 、 软 件 给 出 线程 切换 提示 等 事件 时 ， 处 理 器 核 进行 线程 切换 。 线 程 切换 提示 是 
由 添加 到 ISA 中 的 特殊 指令 来 给 出 ， 并 引导 线程 在 执行 过 程 中 放弃 处 理 器 核 占 用 。 这 类 事件 会 
通知 到 线程 选择 器 ， 并 分 配 不 同 的 线程 紧迫 级 别 ， 具 有 最 高 紧迫 级 别 的 线程 总 是 能 够 被 选中 执 
行 。 因 此 ， 当 暂停 线程 的 紧迫 级 别 比 正在 运行 线程 的 紧迫 级 别 更 高 的 时 候 ， 就 发 生 线程 切换 。 
每 个 线程 都 有 一 份 寄存 器 堆 的 副本 ,但 是 共享 各 层次 存储 结构 以 及 分 支 预 测 部 件 。 为 了 防止 线 
程 的 分 支 历史 被 其 他 线程 污染 ， 进 行 分 支 历史 和 分 支 预测 表 索 引 时 ， 需 要 包含 线程 也。 实现 
多 线程 所 需 增 加 的 机 器 架构 状态 副本 导致 芯片 面积 增加 了 2% 左右 。 


8. 3.4 交错 ( 细 粒 度 ) 多 线程 


粗 粒 度 多 线程 结构 下 同一 时 刻 只 有 一 个 线程 在 运行 ， 因 此 很 难 充 分 利用 由 于 指令 操作 所 引 
发 的 短 延迟 阻塞 。 | 

在 交错 多 线程 中 ， 多 个 线程 同时 在 处 理 器 核 上 运行 。 处 理 器 在 连续 儿 个 周期 内 可 以 对 来 自 不 
同 线程 的 指令 进行 取 指 、 译 码 和 调度 。 因 此 ， 来 自 不 同 线程 的 指令 可 以 以 细 粒 度 交 错 的 方式 执 
行 。 如 果 线 程 遇 到 长 时 间 的 延迟 事件 (如 cache 失效 ) ， 则 会 暂时 挂 起 ， 通 过 每 个 时 钟 周期 交错 执 
行 不 同 线程 ， 即 使 某 个 线程 中 存在 数据 依赖 和 冲突 ， 处 理 器 也 有 可 能 一 直 处 于 工作 状态 。 

五 级 流水 线 上 的 交错 多 线程 

图 8-5 给 出 了 在 支持 交错 多 线程 的 五 级 流水 线 上 运行 2 个 和 5 个 线程 的 具体 操作 情况 。 在 
每 个 周期 中 ， 依 次 选择 运行 线程 执行 ， 以 
便 不 同 线程 占据 不 同 的 流水 阶段 。 当 运行 
两 个 线程 时 ， 由 于 同一 线程 的 指令 每 隔 一 
个 周期 启动 执行 一 次 ， 因 此 ， 即 使 load 指 
令 后 紧 跟 一 条 有 依赖 的 指令 ， 也 不 会 引起 
流水 线 阻 塞 。 当 运行 5 个 线程 时 ， 每 个 流 
水 级 处 理 不 同 线程 的 指令 ， 各 个 流水 级 之 
间 可 以 互 不 影响 。 

支持 交错 多 线程 的 五 级 流水 线 基本 架 
构 与 图 8-3a 中 的 结构 也 有 点 相似 ， 但 是 由 
于 不 同 线程 的 指令 在 流水 线 上 并 发 执行 ， b ) 5 个 线程 
与 之 相 比 有 以 下 三 个 显著 的 差别 : 图 8-5 ”五 级 流水 线 中 的 交错 多 线程 
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。 数据 前 递 必 须 是 线程 可 感知 的 ， 这 意味 着 任何 前 递 值 都 必须 携带 目标 线程 的 :TID ， 只 
有 当前 递 值 携带 的 TD 与 开始 执行 指令 的 TID 相 匹 配 时 ， 才 能 将 该 值 正 确 前 递 给 同一 
线程 。 

。 流水 级 清空 也 必须 是 线程 可 感知 的 。 当 写 回 阶 段 接收 到 异常 时 ,IF、ID、EX 和 MEM 

流水 级 中 的 数据 不 能 直接 清空 ， 包 含 其 他 线程 指令 的 流水 级 不 可 以 清空 ， 同 样 道理 ， 
当 出 现 分 支 跳 转 时 也 是 类 似 的 情况 。 

。 线程 选择 算法 有 所 不 同 。 线 程 选择 器 每 周期 都 需要 选择 一 个 不 同 的 线程 ， 可 用 的 算法 
有 很 多 种 ， 一 种 简单 的 算法 是 以 轮 询 的 方式 从 运行 线程 集中 选择 下 一 个 线程 ， 每 当 遇 
到 长 时 间 延 迟 事 件 时 ， 线 程 选 择 器 就 将 当前 线程 挂 起 ， 并 暂时 将 它 从 运行 线程 集合 中 
删除 ,一 旦 长 延迟 事件 完成 ， 线 程 选择 器 将 其 重新 插入 到 运行 线程 集合 中 。 

五 级 流水 线 中 的 交错 多 线程 比 块 式 多 线程 效率 更 高 ， 这 是 因为 前 者 可 以 消除 流水 线 中 的 气 
泡 ， 而 且 发 生长 延迟 事件 和 分 支 跳 转 时 ， 只 需 清空 少量 指令 ， 图 8-5 分 别 以 2 个 线程 《TI 和 
T2) 和 5 个 线程 (TI ~T5) 的 运行 情况 进行 了 说 明 。 当 运行 2 个 线程 时 ， 分 支 跳 转 的 代价 是 1 
个 时 钟 周期 ， 硬 件 异 常 或 软件 异常 的 代价 是 3 个 时 钟 周 期 。 而 当 运 行 5 个 线程 时 ， 分 支 跳 转 没 
有 额外 代价 ， 异 常 的 代价 仅 为 工 个 时 钟 周 期 。 

需要 注意 的 是 ， 当 单线 程 程序 运行 在 多 线程 处 理 器 ( 块 式 多 线程 或 者 交错 多 线程 时 ) 上 
时 ,其 速度 和 运行 在 基本 的 单线 程 五 级 流水 线 上 是 一 样 的 。 

交错 多 线程 的 实例 

交错 多 线程 微 架 构 的 一 个 很 好 的 例子 是 Sun Spare Tl 和 T2 处 理 器 核 架 构 ，Tl 和 了 2 的 主要 
目标 市 场 是 商业 或 客户 端 - 服 务 器 应 用 ;如 数据 库 系 统 、 联 机 事务 处 理 以 及 Web 应 用 等 。 这 
些 应 用 都 是 大 量 的 客户 端 向 一 个 集中 的 服务 提供 者 请 求 服务 ， 在 这 种 情况 下 ， 客 户 端 请 求 会 在 
服务 器 上 触发 多 个 独立 的 并 发 执行 的 线程 进行 处 理 ， 这 些 线程 只 执行 少量 的 或 完全 没有 浮 点 指 
令 , 它们 主要 执行 整数 和 内 存 访问 指令 ， 且 cache 失效 开销 占据 了 执行 时 间 的 大 部 分 。 客 户 端 - 
服务 器 应 用 由 于 具有 大 量 固有 的 并 行 性 ,需要 很 好 的 线程 执行 吞吐 量 ， 因 此 ， 这 类 应 用 是 多 线 
程 处 理 器 的 主要 目标 。 当 几 个 线程 同时 在 处 理 器 核 上 运行 时 ， 通 过 在 cache 失效 时 执行 不 同 线 
程 的 代码 ， 可 以 有 效 保证 处 理 器 核 利 用 率 和 吞吐 量 维持 在 较 高 水 平 。 

Sun Sparc TI 有 8 个 处 理 器 核 ， 每 个 处 理 器 核 可 以 运行 4 个 线程 共计 32 个 线程 ，Sun Sparc 
T2 有 8 个 处 理 器 核 ， 每 个 处 理 器 核 可 以 运行 8 个 线程 ;因此 总 共有 他 个 线程 。 处 理 器 核 配备 的 
是 单 发 射 的 整 型 流水 线 ，T1 和 T2 中 ， 每 个 处 理 器 核 都 有 自己 的 LI cache， 处 理 器 核 通过 交叉 开 
关 共 享 一 个 分 体 的 L2 cache， 并 通过 L2 cache 中 的 目录 结构 来 维护 Ll cache 之 间 的 一 致 性 。 

图 8-6 给 出 了 Ti 的 基本 处 理 器 核 架 构 ， 方便 起 见 ， 假 定 每 个 处 理 器 核 有 两 个 线程 。 由 于 
每 个 线程 的 指令 还 是 按照 线程 序 开始 执行 ， 因此， 这 还 是 一 个 顺序 流水 线 结构 ， 类 似 之 前 介绍 
的 五 级 流水 线 。 不 过 ， 这 个 结构 更 加 复杂 ， 当 碰 到 长 延迟 事件 时 ， 不 需要 采用 硬件 异常 将 线程 
挂 起 。 它 与 简单 的 五 级 流水 线 的 主要 区 别 是 ， 降 低 了 译 码 和 取 指 这 两 个 流水 级 的 耦合 性 ， 这 两 
个 流水 级 通过 两 个 独立 的 取 指 队列 (IFQ) 进行 隔离 ,每 个 线程 一 个 取 指 队列 ， 甚 目的 是 当 发 
生 指令 cache 失效 时 ， 也 能 够 较 好 地 均衡 指令 发 射 到 流水 线 中 的 速度 。 而 分 支 预测 使 用 的 是 
Sparc V9 分 支 指令 中 提供 的 软件 预测 〈 暗 示 )》 位 来 进行 静态 预测 。 

每 个 周期 ， 线 程 选择 逻辑 选择 一 个 线程 进行 取 指 和 译 码 ， 如 果 两 个 线程 都 在 运行 ， 且 都 执 
行 的 是 低 延 迟 的 指令 ， 那 么 线程 选择 算法 只 是 简单 地 进行 轮 询 ， 如 果 其 中 一 个 线程 遇 到 长 延迟 
事件 ， 那么 线程 选择 逻辑 将 暂时 挂 起 该 线程 (不 再 选择 该 线程 执行 )。 除 此 之 外 ， 线 程 选择 算 
法 也 能 通过 操作 码 获 取 一 些 指令 的 延迟 ， 并 据 此 调整 它们 的 选择 。 当 发 生 分 支 跳 转 、 浮 点 运算 
或 复杂 整数 运算 . (如 除法 或 乘法 ) 时 ,可 能 会 暂时 取消 选择 该 线程 调度 执行 。 
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图 8-6” 支 持 两 路 交错 多 线程 的 顺序 流水 线 
桶 形 处 理 器 


极端 情况 下 ， 交 错 多 线程 变 成 一 种 非常 简单 的 流水 线 结构 ， 称 为 桶 形 处 理 器 (barrel pro- 
cessor)。 由 于 有 足够 的 线程 上 下 文 和 运行 线程 ， 即 使 在 同一 时 刻 ， 每 个 线程 都 仅 有 一 条 指令 存 
在 于 流水 线 中 ,人 处理 器 核 也 依旧 能 够 保持 忙碌 状态 ， 因 此 也 就 无 须 用 于 消除 数据 和 控制 冲突 的 
硬件 结构 了 。 类 似 于 单 周 期 的 非 流 水 处 理 器 结构 ， 这 里 的 每 个 线程 上 下 文 一 次 也 只 执行 一 条 指 
令 ， 但 是 只 要 有 足够 的 运行 线程 ， 那 么 它 就 可 以 忍受 长 时 间 的 内 存 访 问 延 迟 ， 可 以 使 用 容量 大 
速度 慢 的 数据 cache 结构 ， 甚 至 完全 不 用 cache， 都 不 会 导致 流水 线 出 现 饥 狐 (starving) 。 
8-7 给 出 了 一 个 五 级 流水 线 的 桶 形 处 理 器 结构 ， 该 结构 通过 复制 32 个 线程 上 下 文 实现 了 对 
32 个 线程 并 行 执行 的 支持 。 


IF ID EX MEM WB 





图 8-7 ” 桶 形 处 理 器 


这 种 架构 尽管 概念 上 很 简单 ， 但 至 今 也 还 没有 成 功 的 范例 ， 主 要 原因 如 下 : 

首先 ， 在 目前 的 技术 条 件 下 ， 如 果 要 保证 流水 线 不 空闲 ， 则 需要 数 以 百 计 的 线程 ， 而 大 量 
线程 上 下 文 所 需 的 硬件 开销 是 非常 可 观 的 。 

其 次 ， 这 种 微 架 构 与 过 去 传统 的 处 理 器 微 架构 差别 太 大 ， 对 存在 大 量 并 发 线程 的 工作 负载 、 
来 说 ， 利 用 廉价 的 现成 微 处 理 器 搭建 的 大 规模 并 行 架构 在 市 场 上 更 加 成 功 。 

最 后 ， 即 使 这 种 机 器 具有 非常 高 的 吞吐 率 ， 单 位 时 间 内 可 以 执行 数 百 个 线程 ， 但 是 单个 线 
程 的 执行 速度 却 非常 慢 。 除 了 那些 具有 无 限 并 行 性 的 应 用 之 外 ， 多 线程 处 理 器 通常 不 能 为 了 线 
程 吞吐 量 的 提升 而 完全 牺牲 单线 程 的 执行 时 间 。 

桶 形 处 理 器 的 实例 

桶 形 处 理 器 背后 的 技术 思想 很 早 就 出 现 了 ， 事 实 上 ， 早 在 20 世纪 60 年 代 ， 控 制 数据 公司 
(CDC) 率先 在 CDC6600 的 VO 处 理 器 设计 中 实现 了 这 一 想法 ， 之 后 ， 在 80 年 代 初 ，Denelcor 
公司 推出 了 包含 多 达 16 个 处 理 器 单元 的 多 处 理 器 系统 HEP ( Heterogeneous Element Processor ) ， 
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其 中 每 个 处 理 器 单元 都 是 八 级 流水 。 在 任何 时 刻 ,， 不同 的 流水 级 处 理 的 是 来 自 不 同 进程 的 指 
令 ， 因 此 ， 为 了 充分 利用 流水 线 ， 至 少 需要 8 个 进程 。 由 于 不 同 流水 级 中 的 指令 都 是 相互 独立 
的 ， 并 且 每 个 进程 一 次 只 执行 一 条 指令 ， 不 存在 数据 和 控制 冲突 ， 因 此 无 需 进 行 数 据 前 递 、 冲 
突 检 测 、 流 水 线 阻塞 以 及 清空 等 操作 。 处 理 器 也 没有 cache， 直 接 通 过 交换 网 络 访问 内 存 系统 。 
当然 ， 那 时 处 理 器 和 内 存 之 间 的 速度 差距 并 没有 今天 这 么 大 ， 每 个 处 理 器 的 最 大 指令 吞吐 量 是 
1.25MIPS， 因 此 8 个 处 理 器 的 最 大 指令 吞吐 量 总 和 是 10MIPS。 

后 来 ，Denelcor 公司 的 HEP 发 展 成 TERA， 这 是 一 个 由 256 个 处 理 器 节点 组 成 的 多 处 理 
器 系统 ，TERA 中 的 处 理 器 架构 被 称 为 “地 平 线 (Horizon)” 结 构 。Horizon 指令 由 三 个 
RISC 操作 组 成 ， 每 个 操作 类 似 于 MIPS 指令 ， 因 此 Horizon 结构 也 可 以 看 成 是 一 种 超标 量 处 
理 器 或 长 指令 字 (LIW) 处 理 器 ， 每 个 处 理 器 节点 都 是 流水 结构 ,包含 指令 存储 和 cache， 
支持 128 个 指令 流 (一 个 指令 流 等 同 于 TERA 中 的 一 个 线程 ) ， 硬 件 支持 程序 计数 器 和 寄存 
器 堆 的 复制 ，128 个 指令 流 总 共有 128 个 程序 计数 器 和 4096 个 寄存 器 。 每 个 周期 从 就 绪 指 
令 流 池 中 选择 不 同 指令 流 中 的 指令 执行 ， 如 果 指 令 流 的 指令 与 之 前 发 射 的 、 现 在 还 在 流水 
线 中 的 指令 都 没有 数据 依赖 关系 ， 则 该 指令 可 以 发 射 < TERA 没有 针对 数据 冲突 的 硬件 支 
持 , 为 了 跟踪 依赖 关系 ，Horizon 的 每 条 指令 中 增加 了 一 个 前 看 (lookahead) 字段 ,表示 后 
续 有 和 多少 条 指令 可 以 无 需 等 待 当前 指令 完成 就 可 以 发 射 。 在 相同 指令 流 中 ， 由 前 看 字段 标 
明 不 存在 数据 依赖 的 那些 指令 ， 就 可 以 在 流水 线 上 并 发 执行 。 发 射 之 前 还 需要 满足 如 下 要 
求 : (1) 指令 是 有 效 的 ; (2) 指令 的 寄存 器 访问 没有 结构 冲突 。 数 据 内 存 分 布 于 多 处 理 器 
的 不 同 节 点 上 ， 并 且 处 理 器 上 没有 数据 cache， 因 此 也 无 需 考虑 cache 一 致 性 。 内 存 的 访问 
时 间 可 变 ， 从 50= 80 个 时 钟 周 期 不 等 ,具体 取决 于 数据 所 在 内 存单 元 的 位 置 。 由 于 支持 
128 个 硬件 指令 流 和 大 量 的 软件 线程 ， 因 此， 即使 某 些 指令 流 的 指令 执行 需要 80 个 周期 ， 
流水 线 也 可 能 保持 100% 的 利用 率 。 


8. 3.5 乱 序 执行 处 理 器 上 的 同时 多 线程 


块 式 多 线程 在 推测 乱 序 处 理 器 核 上 的 效果 并 不 好 ， 因 为 线程 切换 的 开销 很 大 。 在 块 式 多 线 
程 中 ,单个 周期 内 处 理 器 核 不 能 同时 支持 多 个 线程 并 行 执行 ， 新 的 线程 必须 在 旧 线程 完全 清空 
流水 线 后 ， 才 能 开始 执行 。 

交错 多 线程 适用 于 乱 序 处 理 器 核 ， 而 同时 多 线程 (SMT) 是 它 的 进一步 延伸 。 随 着 复制 的 
资源 越 来 越 多 ， 并 假定 处 理 器 核 每 周期 都 可 以 并 行 执行 多 个 线程 ， 那 么 线程 就 可 以 进行 细 粒 度 
的 交错 执行 ， 就 像 在 简单 处 理 器 核 上 的 交错 多 线程 实现 一 样 。 和 块 式 多 线程 不 同 ， 同 时 多 线程 
下 的 长 延迟 事件 不 被 当 作 硬 件 异常 来 处 理 ， 而 是 会 将 指令 分 发 单元 重 定向 到 从 其 他 线程 开始 分 
发 指令 ， 在 这 种 情况 下 ， 流 水 线 后 端 不 会 因为 线程 切换 而 清空 ， 引 起 线程 挂 起 的 指令 仍旧 保留 
在 流水 线 中 ， 直 到 长 延迟 事件 完成 ， 该 指令 执行 结束 退出 流水 线 。 

在 SMT 的 每 个 周期 ， 都 会 从 不 同 的 线程 调度 处 理 器 核 指令 。 在 超标 量 处 理 器 核 (每 个 周 
期 可 以 分 发 多 条 指令 ) 上 下 文中 , 来 自 不 同 线程 的 指令 可 能 在 同一 周期 进行 取 指 、 译 码 和 调 
度 ， 从 而 使 得 处 理 器 核 共享 粒度 比 交错 多 线程 更 细 。 在 每 个 周期 ， 来 自 不同 线 程 的 指令 从 一 开 
始 就 可 以 争夺 共享 资源 ， 从 而 有 助 于 隐藏 由 于 短 操 作 延 迟 和 资源 共享 所 引发 的 阻塞 ， 进 而 提高 
硬件 利用 率 和 指令 吞吐 率 。 

除了 架构 状态 ，SMT 通常 还 需要 为 每 个 线程 复制 取 指 队列 、 重 排序 缓冲 区 以 及 load/store 
队列 。 此 外 ， 指 令 调度 、 数 据 前 递 和 指令 清空 必须 是 线程 可 感知 的 〈thread-aware) ， 每 条 指令 
在 执行 过 程 中 ， 必 须 携带 自身 的 线程 上 下 文 人 D。 

。 数据 前 递 必须 是 线程 可 感知 的 。 
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。 流水 级 清空 必须 是 线程 可 感知 的 。 当 由 于 错误 的 分 支 预测 或 异常 而 清空 流水 线 后 端 时 ， 
包含 来 自 其 他 线程 指令 的 流水 级 并 不 清空 。 在 流水 级 中 ， 可 以 通过 将 指令 的 TID 与 引 
起 清空 操作 的 指令 TID 进行 匹配 来 判断 ; 同样 ， 前 端 流水 级 中 的 结构 也 只 有 与 线程 匹 
配 时 才 被 清空 。 

。) 指令 调度 必须 是 线程 可 感知 的 。 发 射 队列 中 的 项 必须 有 TID 标记 ， 并 且 ， 当 结果 需要 读 
取 发 射 队列 中 某 条 指令 的 操作 数 时 ， 结 果 对 应 的 TID 和 等 待 发 射 指令 时 TID 必须 匹配 。 

在 超标 量 处 理 嚣 中， 如果 同一 周期 可 以 从 不 同 线程 取 指 、 译 码 和 调度 ， 那 么 可 以 大 大 简化 
硬件 复杂 度 s 我 们 已 经 看 到 ， 在 超标 量 机 器 上 如 果 只 运行 单个 线程 ， 那么 取 指 和 分 发 阶段 ( 重 
命名 操作 执行 的 阶段 ， 将 是 严重 瓶颈 。 在 取 指 阶段 ， 由 手 同一 线程 的 一 串 连续 指令 中 可 能 存在 
条 件 跳 转 , 这 会 导致 在 一 个 周期 内 无 法 同时 取 太 多 指令 。 同 样 由 于 单一 指令 流 中 存在 寄存 器 依 
赖 ， 如 果 对 大 量 指令 进行 重 命名 ， 则 逻辑 操作 非常 复杂 ， 需 要 对 同一 个 重 命名 表 进 行 大 量 的 访 
问 。 在 变 长 指令 宽度 的 架构 中 ,例如 Intel 的 x86， 即 使 对 同一 线程 的 连续 多 条 指令 译 码 也 十 分 复 
杂 ， 译 码 器 可 能 需要 先 对 第 一 条 指令 进行 局 部 译 码 ， 然 后 才能 识别 出 第 二 条 指令 的 起 始 地 址 5 在 
取 指 、 译 码 和 重 命名 阶段 的 依赖 检查 会 导致 串 行 瓶 颈 ， 或 者 增加 处 理 器 的 时 钟 周期 时 间 。 

在 同一 周期 内 ， 通 过 交错 执行 来 自 不 同 线程 的 指令 ，SMT 结构 可 以 有 效 消除 上 述 串 行 瓶 
颈 。 这 是 因为 在 同一 周期 ; 可 以 使 用 多 个 程序 计数 器 对 来 自 不 同 指令 流 的 指令 进行 取 指 、 译 码 
和 调度 。 例如， 运行 单线 程 的 8 路 超标 量 机 处 理 器 必须 从 同一 线程 取 8 条 连续 的 指令 ， 然而 ， 
如 果 有 SMT 支持 ,那么 每 个 周期 只 需要 从 4 个 不 同 的 线程 分 别 取 指 、 译 码 和 重 命名 2 条 指令 ， 
这 无 疑 更 容易 实现 。 

支持 同时 多 线程 的 两 路 乱 序 处 理 器 的 执行 情况 “我 们 还 是 使 用 例 8.3 的 场景 , 但 
是 考虑 支持 同时 多 线程 ， 并 且 同 一 周期 可 以 从 不 同 线程 灵活 分 发 指令 ， 这样 ， 通 过 细 粒 度 共享 
处 理 器 核资 源 的 方式 提高 了 硬件 的 利用 率 。 具 体 调 度 过 程 如 表 8-2 所 示 ， 每 个 周期 可 以 从 每 个 
线程 分 发 一 条 指令 ， 在 第 18 个 周期 ， 与 X5 指令 相关 的 长 延迟 事件 导致 线程 1 被 挂 起 ， 这 时 
X6 指令 已 经 分 发 出 去 ， 因 此 X5 和 X6 两 条 指令 都 各 自古 据 发 射 队列 的 一 项 。 这 样 ， 在 17 个 周 
期 (19 =2) 内 ， 总 共 发 射 了 11 条 指令 ， 因 此 ， 这 个 例子 中 的 发 射 率 是 每 个 周期 11717 = 0. 65 
条 指令 ， 即 CPI 为 1;55。 S| 


表 8-2 同时 多 线程 下 的 推测 调度 
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同时 多 线程 的 实例 

近年 来 ,包括 IJBM 和 Intel 在 内 的 多 家 公司 都 已 经 在 他 们 的 处 理 器 核 微 架 构 中 实现 了 SMT， 
但 是 所 有 实现 都 限定 每 个 处 理 器 核 只 支持 两 个 线程 ， 并 且 也 还 没有 实现 真正 意义 上 的 SMT。 真 
正 意 义 上 的 SMT 要 求 ， 可 以 在 同一 周期 内 对 来 自 不 同 线程 的 指令 进行 取 指 、 译 码 和 调度 。 在 
乱 序 执行 处 理 器 中 ， 同 时 多 线程 通常 基于 交错 多 线程 实现 ， 因 为 这 两 类 多 线程 都 需要 相同 的 线 
程 感知 硬件 支持 来 实现 指令 的 转发 、 清 空 和 调度 。 在 商业 系统 中 ， 使 用 这 种 保守 方法 的 主要 原 
因 在 于 : 我 们 希望 即使 只 运行 单线 程 ， 也 能 够 利用 所 有 的 处 理 器 核资 源 。 
| Intel 在 NetBurst (Pentium 4) 的 微 架 构 上 通过 超 线 程 技 术 (HTT) 实现 了 SMT 机 制 ， 后 
来 ， 也 在 Atom 和 酷 窒 的 一 些微 架构 中 进行 了 实现 。 在 HTT 中， 逻辑 处 理 器 (又 称 为 线程 上 下 
文 ) 几乎 共享 物理 处 理 器 的 所 有 资源 ， 包 括 cache、 物 理 寄存 器 、 功能 单元 、 分 支 预测 器 、 控 
制 逻 辑 和 总 线 等 8 相反， 寄存 器 别名 表 (RAT)、 下 一 条 指令 指针 (类似 于 程序 计数 器 )、 返 
回 堆栈 预测 器 (预测 间接 跳 转 的 目标 地 址 )、 取 指 队列 、 微 指令 队列 、 踪 迹 缓存 填充 缓冲 区 、 
指令 TLEB、 重 排序 缓冲 区 和 store 缓冲 区 等 都 需要 进行 复制 备份 ; 诸如 发 射 队列 这 样 的 一 些 资 
源 还 可 以 通过 阔 值 策略 来 灵活 决定 是 共享 还 是 进行 资源 复制 。 比 如 不同 线程 的 微 指 令 可 以 先 
通过 轮 询 的 方式 在 发 射 队 列 中 分 配对 应 项 ， 当 某 个 线程 对 发 射 队列 的 占用 达到 阅 值 时 , 就 不 再 
人 允许 该 线程 的 微 指令 继续 分 发 到 这 个 发 射 队列 中 。 

IBM 的 Power 5 -处理 器 在 Power 4 微 架 构 基 础 上 实现 了 SMT。Power4 的 每 个 处 理 器 有 两 个 
五 路 乱 序 执行 的 处 理 器 核 。 分 支 预测 后 ， 每 个 周期 可 以 从 指令 cache 中 取出 8 条 指令 ， 并 将 这 
些 指 令 发 送 到 IFQ 队 尾 。 在 IFQ 队 首 ,每 个 周期 最 多 可 以 取出 5 条 指令 组 成 一 组 ， 构 成 一 个 分 
发 单元 。 不同 的 组 之 间 通 过 组 完成 表 (GCT) 来 维持 相互 顺序 ,其 作用 类 似 于 Power4 中 的 
ROB。 每 个 组 由 连续 指令 动态 生成 , 一旦 组 内 的 所 有 指令 都 不 存在 结构 冲突 六， 就 可 以 按照 进 
程序 一 次 分 发 一 组 指令 。 需 特别 处 理 的 是 ，load 和 store 指令 必须 在 load 请 求 队列 (LRQ) 或 
store 请 求 队列 (SRQ) 中 保留 一 项 ，LRQ 和 SRQ 的 总 长 度 都 是 32 项 ,它们 构成 了 对 应 的 16ad/ 
store 队列 ， 可 以 用 于 检测 内 存 访问 冲突 。 组 内 的 指令 乱 序 发 射 到 8 个 执行 单元 ,每 个 周期 最 多 
可 以 发 射 8 条 指令 。GCT 会 跟踪 记录 组 内 指令 的 完成 情况 ， 并 按照 进程 序 依次 提交 不 同 的 指令 
组 ,因此 ， 蜡 常 只 能 在 不 同 的 指令 组 边界 被 接收 。 此 外 ， 逻 辑 寄 存 器 〈 架 构 寄 存 器 ) 需要 映 
射 到 真正 的 物理 寄存 器 ， 因 为 两 者 数量 可 能 不 相等 ,比如 ， 某 种 情况 下 ， 逻 辑 通用 寄存 器 
(GPR) 有 36 个 ， 而 物理 通用 寄存 器 则 可 能 有 80 个 。 

除了 支持 两 个 硬件 线程 上 下 文 之 外 ，Power 5 的 处 理 器 核 架 构 与 Power 4 的 基本 相同 。 
Power 5 处 理 器 核 既 支 持 SMT 模式 ， 也 支持 单线 程 模式 ， 这 两 种 情况 都 是 从 同一 个 线程 进行 
取 指 、 译 码 和 调度 。 每 个 线程 都 有 一 个 独立 的 IFQ， 每 周期 调度 硬件 都 会 基于 优先 级 选择 算 
法 从 两 个 IFQ 队列 中 选择 一 个 进行 译 码 ， 然 后 组 成 一 个 最 多 5 条 指令 的 指令 组 ， 一旦 这 个 指 
令 组 所 需 的 资源 准备 好 了 ， 就 可 以 马上 分 发 。 接 下 来 是 对 寄存 器 进行 重 命名 的 操作 ，Power 
5 处 理 器 核 有 120 个 物理 通用 寄存 器 和 120 个 物理 浮 点 寄存 器 ， 在 SMT 模式 下 ， 两 个 线程 动 
态 共 享 这 两 个 寄存 器 堆 ， 不 同 线程 的 寄存 器 通过 在 结构 寄存 器 号 上 添加 一 个 线程 位 来 进行 
区 分 。 在 单线 程 模式 下 ， 所 有 的 物理 寄存 器 都 分 配给 单一 线程 ; 而 在 多 线程 模式 下 ， 当 分 
发 一 组 指令 时 ， 将 从 共享 GCT 的 20 项 中 分 配 一 个 给 对 应 的 指令 组 ,来 自 两 个 线程 的 指令 组 
按照 它们 各 自 的 程序 序 交错 保存 在 GCT 中 。 指 令 组 中 的 指令 可 以 乱 序 发 射 和 执行 ， 发射 队 
列 由 两 个 线程 共享 。 一 旦 一 组 指令 执行 完成 且 没 有 出 现 异 常 ， 并且 该 组 指令 是 线程 序 中 最 
早 的 一 组 ,那么 这 组 指令 就 可 以 退出 。 每 个 线程 都 有 一 个 组 完成 单元 ， 因 此 每 个 周期 都 可 
以 有 两 组 指令 退出 。 为 了 支持 两 路 SMT，Power 5 将 Power 4 中 的 LRQ 和 SRQ 拆 分 成 两 半 ， 
每 部 分 各 16 项 。 
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在 SMT 模式 下 ，Power 5 处 理 器 核对 指令 的 译 码 和 分 发 进行 了 节 流 控制 ， 以 避免 某 一 个 
线程 独占 像 发 射 队列 这 样 的 共享 资源 ， 具 体 的 节 流 控制 措施 包括 以 下 3 个 机 制 : 
。 给 每 个 线程 设置 不 同 的 优先 级 。 可 以 通过 软件 或 硬件 动态 地 设置 优先 级 ， 高 优先 级 线 
程 的 指令 可 以 被 优先 选择 并 译 码 。 例 如 ， 当 某 个 线程 占据 的 GCT 项 超过 预 设 阔 值 时 ， 
可 以 使 用 这 种 机 制 。 
。 停止 选择 线程 译 码 。 当 某 个 线程 的 未 完成 I2 失效 数 超过 预 设 阔 值 时 ， 它 会 对 发 射 队列 
造成 阻塞 ， 并 使 得 其 他 线程 的 执行 速度 减 慢 ， 甚 至 完全 停止 。 因 此 ， 当 检测 到 这 种 状 
况 时 ， 会 暂停 该 线程 的 指令 译 码 和 分 发 ， 直 到 该 状况 解除 。 
。 清空 Q 中 某 个 线程 的 指令 。 当 某 个 线程 执行 到 非常 长 延迟 的 指令 时 (如 发 生 同 步 ac- 
quire 操作 失败 ) ， 就 会 采取 这 种 极端 的 措施 。 
线程 优先 级 也 可 以 被 用 来 减缓 那些 无 效 操作 的 线程 ， 或 者 加 快 那 些 紧迫 性 比较 高 的 线程 。 
例如 ， 当 一 个 线程 处 于 空 循 环 操作 或 在 忙 等 锁 时 ， 应 当 降 低 其 优先 级 ， 或 者 ， 如 果 线 程 是 带 有 
deadline 的 实时 应 用 ,那么 应 当 提 高 其 优先 级 。 在 Power 5 中 ,每 个 线程 有 8 个 优先 级 (从 
0 ~7) ,不同 的 优先 级 可 以 对 线程 的 译 码 速 度 进行 控制 。 例 如 ， 当 优先 级 相等 时 ， 两 个 线程 的 
译 码 速度 相同 ， 当 两 个 线程 的 优先 级 相差 7 时 ， 则 只 有 一 个 线程 在 译 码 ， 从 而 导致 其 效果 就 是 
单线 程 执行 。 
近期 的 Power7 处 理 器 是 一 个 配置 8 个 乱 序 处 理 器 核 的 CMP 架构 ， 每 个 核 每 周期 可 以 取 指 
并 发 出 8 条 指令 ， 并 最 多 分 发 6 条 指令 。 在 SMT 模式 下 ， 每 个 处 理 器 核 可 以 并 发 执行 4 个 线 
程 ， 因 此 每 个 处 理 器 的 线程 上 下 文 总 数 为 32。 
最 后 ， 在 Sun 公司 的 16 核 Niagara 3 处 理 器 上 ， 每 个 SPARC 处 理 器 核 可 以 支持 8 个 线程 的 
撕 行 ， 因 此 片上 总 共 可 以 支持 128 个 线程 。 


8.4 片上 多 处 理 器 架构 


传统 的 CMP 分 为 多 核 ( 片 上 不 超过 8 个 核 ) 和 众 核 (超过 8 个 核 ) ， 可 以 预计 在 不 久 的 将 
来 ,所 有 的 CMP 都 将 是 众 核 结构 的 。CMP 可 能 是 同 构 的 ， 也 可 能 是 异 构 的 ， 这 取决 于 处 理 器 
核 是 否 相 同 。 处 理 器 核 可 能 是 多 线程 的 ， 也 可 能 是 单线 程 的 。 此 外 ， 由 于 处 理 器 核 之 间距 离 很 
近 ， 因 此 也 可 以 高 效 地 共享 一 些 硬件 资源 。 

CMP 系统 具有 如 下 几 个 理想 特性 : 

。 设计 简单 。 设 计 者 只 需要 构建 一 个 处 理 器 核 ， 然 后 将 其 复制 多 份 就 可 以 充分 利用 不 断 
增加 的 片上 晶体 管 资源 ， 从 而 极 大 地 降低 了 芯片 设计 的 复杂 性 。 此 外 ， 芯 片 的 测试 和 
验证 也 同样 得 到 了 简化 。 

。 功 耗 更 可 扩展 。 随 着 处 理 器 核 数 的 增加 ， 片 上 总 功 耗 呈 线 性 增加 ， 这 使 得 CMP 结构 比 
复杂 的 单 处 理 器 结构 更 具 吸 引力 。 比如 ， 将 处 理 器 核 数 增加 一 倍 ， 功 耗 也 只 增加 一 倍 ， 
而 如 果 我 们 将 其 频率 提高 一 倍 ， 那 么 功 耗 将 变 为 原来 的 8 信 。 

。 通信 延迟 低 。 当 多 个 处 理 器 核 集 成 在 单一 芯片 上 时 ， 核 间 的 通信 延迟 非常 低 。 低 延迟 
的 核 间 通信 也 导致 了 新 的 并 行 编程 模式 的 出 现 ， 其 中 一 个 例子 是 细 粒 度 线程 并 行 。 在 
CMP 时 代 之 前 ， 编 译 器 和 应 用 程序 开发 人 员 都 不 得 不 开发 粗 粒 度 并 行 线程 以 利用 SMP 
系统 中 的 并 行 性 。 在 两 次 通信 之 间 ， 每 个 线程 需要 执行 上 百 条 ， 甚 至 上 千 条 指令 。 线 
程 之 间 也 不 能 频繁 地 共享 数据 ， 因 为 共享 数据 需要 通过 片 外 通信 来 实现 ， 开 销 很 大 。 
而 CMP 允许 编译 器 和 应 用 程序 开发 者 更 加 高 效 地 利用 并 行 性 ， 可 以 开发 频繁 访问 共享 
数据 以 及 长 度 更 短 的 线程 。 

。 模块 化 和 可 定制 。 基 于 CMP 架构 ， 可 以 通过 改变 片上 处 理 器 核 数 来 针对 不 同市 场 需求 
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定制 芯片 。 例 如 ， 对 骨 和 人 式 系统 市 场 来 说 ， 双 核 芯 片 就 可 以 满足 需求 ， 而 面向 高 性 能 
应 用 市 场 ， 则 需要 众 核 处 理 器 芯片 。 这 样 ，CMP 系统 通过 简单 的 核 数 变换 ， 就 能 实现 
针对 特定 市 场 的 定制 化 。 


8.4.1 同 构 CMP 架构 


在 同 构 CMP 架构 中 ， 所 有 处 理 器 核 都 是 相同 
的 。 图 8-8 展示 了 一 个 简单 的 四 核 CMP 架构 ，4 
个 处 理 器 核 完 全 相同 并 且 结 构 对 称 ， 因 此 ， 设计 
者 只 需要 设计 一 个 处 理 器 核 ， 然 后 再 对 其 进行 复 
制 ， 就 能 形成 CMP 结构 。 这 些 处 理 器 核 可 能 是 简 
单 的 五 级 流水 或 者 复杂 的 乱 序 处 理 器 核 ， 每 个 核 
都 有 一 个 私有 的 Ll cache， 图 中 ; 核 间 共享 一 组 
L2 cache (4 个 bank)。 尽 管 有 些 CMP 中 ，L2 
cache 是 私有 的 ，L3 cache (对 应 图 中 结构 的 13 是 
在 片 外 ) 是 共享 的 , 但 是 共享 L2 cache 仍 是 CMP 





最 主流 的 结构 。 

基于 总 线 的 CMP 

图 8-8 中 的 片上 4 个 处 理 器 核 是 通过 总 线 连接 责 8 .8 总 手 总 线 和 共享 12 Che 的 四 入 
的 ,并 且 共 享 L2 cache 组 织 成 牙 个 bank (存储 CMP 设计 


体 )， 这 个 结构 类 似 于 SMP 或 UMA 共享 内 存 机 
器 ， 只 是 共享 的 L2 cache 取代 了 共享 内 存 模块 。 例 如 ， 地 址 为 N 的 存储 块 被 固定 存放 在 第 
个 12 bank 上 ,其 中 上 =N mod 4。Ll cache 之 间 的 一 致 性 通过 侦 听 协议 来 维护 ， 侦 听 协 议 借 
助 于 总 线 的 广播 和 总 呼 (broadcal) 功能 实现 。 共 享 L2 cache 和 Ll cache 之 间 必 须 是 包含 
(Inelusive) 的 关系 ， 当 某 个 处 理 器 核 遇 到 Ll1 cache 失效 时 ， 它 首先 产生 一 个 总 线 请 求 〈 例 
如 ，BusRd 或 BusRdX) ， 一 且 总 线 访 问 请 求 被 许可 ， 该 处 理 器 核 就 可 以 访问 L2 cache 或 者 
片上 相 邻 处 理 器 核 的 cache 以 完成 L1 失效 的 处 理 。 在 CMP 中 支持 一 致 性 与 SMP 中 支持 一 
致 性 没有 什么 区 别 ， 这 在 第 5 章 中 已 经 讨论 过 。SMP 系统 的 主要 区 别 在 于 ， 某 个 数据 块 
可 能 不 在 L2 中 ， 而 共享 L2 cache 失效 会 触发 对 片 外 L3 cache 或 者 内 存 的 访问 ， 此 时 ， 协 
议 操作 的 请 求 者 可 能 需要 等 竺 很 多 个 时 钟 周期 ， 因 此 Ll cache 协议 必须 能 够 应 对 这 种 长 
延迟 问题 。 

在 图 8-8 的 结构 中 ， 共 享 L2 cache 连接 到 外 部 路 由 器 ， 该 路 由 器 再 将 存储 器 和 其 他 外 围 设 
备 〈 如 磁盘 ) 连接 到 片上 ， 多 个 CMP 可 以 通过 外 部 总 线 将 其 互 连 。 和 单 芯 片上 的 多 核 互 连 不 
同 ， 外 部 总 线 连 接 的 是 多 个 芯片 ， 且 每 个 芯片 包含 多 个 处 理 器 核 。 

图 8-8 中 的 架构 代表 的 是 早期 CMP 架构 ， 类 似 Pentium 4 双核 CMP， 在 这 种 架构 中 ， 片 上 
有 两 个 Pentium 4 处 理 器 ， 且 通过 专用 的 片上 总 线 接口 互 连 。 实 际 上 ， 早 期 的 CMP 甚至 都 没有 
共享 cache， 而 是 两 个 处 理 器 核 配备 自己 私有 的 I2 cache。 有 意思 的 是 ， 在 这 种 CMP 中 ， 处 理 
器 核 可 以 通过 片上 总 线 接 口 或 片 外 前 端 总 线 接口 物理 上 访问 彼此 的 L2 cache， 因此， 这 里 的 双 
核 就 好 像 SMP 系统 中 的 两 个 处 理 器 。 简 而 言 之 ， 这 种 CMP 架构 就 好 像 把 一 个 双 处 理 器 SMP 系 
统 移 到 了 片上 。 

基于 环 的 CMP 

随 着 片上 晶体 管 密度 的 不 断 增 大 ，CMP 架构 的 性 能 也 大 幅度 提升 。 图 8:9 给 出 了 一 个 更 先 
进 的 四 核 CMP 框图 ， 片 上 处 理 器 核 通过 环 网 络 进行 互 连 ， 所 有 处 理 器 核 共享 L2 cache， 核 与 
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cache bank 之 间 也 通过 环 网 络 通信 。 在 总 线 结构 下 ,任意 周期 中 只 有 一 个 节点 可 以 访问 总 线 ， 
与 此 不 同 ,， 环 网 络 人 允许 多 个 节点 在 同一 周期 间 
时 进行 相互 之 间 的 通信 ， 只 要 它们 不 会 同时 使 
用 同一 条 链 路 就 行 。 比 如 ， 在 图 8-9 中 ，core0 
可 以 同 corel 进行 通信 ， 与 此 同时 ，core2 也 可 
以 同 core3 进行 通信 。 在 单 向 环 中 ， 如 果 core0 
想 同 core2 进行 通信 ， 那 么 通信 数据 必须 经 过 
corel ， 而 在 双向 环 中 ,通信 和 是 可 以 沿 任意 一 个 
方向 的 ， 因此 ， core0 可 以 直接 同 corel 和 
core3 通信 。 环 上 的 每 个 节点 都 有 额外 的 逻辑 
用 于 路 由 数据 包 , -如 果 corel 接收 到 二 个 数据 
包 ， 那 么 该 数据 包 将 先 被 锁 存 在 corel 的 路 由 
器 中 ， 随后， 路 由 器 会 检查 该 数据 包 ， 看 是 否 
是 给 corel 的 ， 若 是， 则 从 环 上 移 除 该 数据 包 ， 
并 将 其 传递 给 .corel -而 如 果 数 据 包 是 要 发 给 
环 上 其 他 节点 的 ， 则 -corel -的 路 由 器 将 该 数据 
包 传递 给 下 一 个 节点 。 本 质 上 ,在 环 互 连 中 ， 图 8-9 基于 环 互 连 的 改进 型 四 核 CMP 

核 间 通信 可 能 需要 多 跳 才 能 到 达 最 终 的 目标 

核 ， 每 次 跳 转 通常 需要 一 个 周期 ， 因 此 核 间 通信 延迟 会 随 着 中 间 节 点 数目 的 变化 而 变化 。 一 方 
面 ,， 环 网 络 通 过 支持 不 同 链 路 上 的 并 行 访问 ;提高 了 带宽 和 可 扩展 性 ; 另 一 方面 ， 基 于 环 的 互 
连 网 络 在 每 个 节点 中 都 需要 路 由 单元 ， 这 也 增加 了 芯片 的 复杂 度 和 面积 开销 。 

与 基于 总 线 的 CMP 结构 相 比 基于 环 的 CMP 需要 更 复杂 的 机 制 来 支持 cache 一 致 性 。 由 
于 并 不 是 环 上 的 每 个 节点 都 能 看 到 所 有 的 请 求 ， 如 果 要 支持 基于 侦 昕 的 cache 一 致 性 , 则 必须 
将 所 有 的 一 致 性 通信 都 使 用 显 式 的 消息 广播 形式 。 例如 ， 当 core0 产生 一 个 cache 一 致 性 请 求 
时 ， 它 必须 显 式 地 将 信息 发 送 到 环 上 所 有 的 处 理 器 核 上 ;该 一 致 性 请 求 从 源 节点 出 发 ， 遍 历 整 
个 环 ， 每 个 节点 接收 到 请 求 时 ， 都 检查 自己 的 本 地 cache 以 确定 所 请 求 数据 是 否 可 用 ， 如 果 可 
用 , 则 更 新 一 致 性 请 求 〈 但 是 不 能 将 请 求 从 环 中 删除 )， 并 继续 传递 给 环 上 的 下 一 个 节点 ， 一 
致 性 请 求 最 终 回 到 源 节点 ， 并 携带 了 哪个 节点 包含 最 新 数据 的 信息 。 ;一致 性 请 求 所 需 的 延迟 与 
请 求 节点 和 数据 所 在 节点 之 间 的 相对 位 置 无 关 ,， 因 此 ， 环 结构 下 侦 听 协议 的 行为 类 似 统 一 内 存 
访问 (UMA) 互 连 结构 〈 比 如 共享 总 线 ) 。 

在 环 网 络 上 也 可 以 支持 基于 目录 的 cache 一 致 性 ， 这 种 结构 下 ， 环 上 的 每 个 节点 都 作为 一 
特定 地 址 段 的 主 节点 : (home node);， 例 如) core0- 是 地 址 0=1K 段 的 主 节 点 ，corel 是 地 址 1K ~ 
2K 段 的 主 节点 ， 以 此 类 推 。 主 节点 知道 它 对 应 地 址 范围 内 的 数据 块 是 否 是 脏 的 ， 并 通过 维护 
一 组 “存在 ”位 (系统 中 的 每 个 节点 用 一 位 表示 ) 和 一 个 “ 脏 ” 位 来 跟踪 有 效 副 本 的 位 置 。° 
所 有 的 一 致 性 请 求 先 被 发 送 到 主 节 点 ; 主 节点 再 查找 该 数据 块 对 应 的 目录 项 ， 并 根据 一 致 性 要 
求 做 相应 处 理 ; -当主 节点 不 是 拥有 数据 的 节点 时 ， 该 请 求 就 被 转发 到 脏 数据 所 在 节点 ， 如 果 脏 
数据 所 在 节点 在 请 求 节 点 和 主 节点 之 间 ， 那 么 请 求 需 要 在 环 上 多 绕 一 圈 。 

图 8:9 代表 了 比较 新 的 CMP 结构 ， 例 如 ntel 的 酷 害 i7 处 理 器 ,该 处 理 器 片上 包含 4 个 核 ， 
采用 环 互连网 络 ， 处 理 器 核 和 L2 cache bank 之 间 通 过 环 网 络 进行 通信 ， 片 外 通信 必须 通过 芯 
片 的 外 部 引 脚 来 完成 。 由 于 引 脚 数目 有 限 ，CMP 的 最 大 设计 挑战 之 一 就 是 片 外 带宽 s 为 了 尽 
可 能 减少 片 外 的 通信 ， 酷 窒 订 配备 了 13 cache。 除 了 大 量 的 cache， 这 还 提供 一 套 名 为 快速 通 
道 互 连 (QPI) 架构 的 片 外 通信 专用 网 络 ，QPI 使 用 点 对 点 互 连 ， 传 输 带 宽 高 达 25. 6GB/s。 
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交叉 开关 互 连 

基于 总 线 的 和 基于 环 的 片上 网 络 相 对 来 讲 都 比较 容易 实现 ， 但 随 着 片上 处 理 器 核 数 的 增 
加 ， 这 两 种 架构 的 扩展 性 都 很 差 。 例 如 ， 基 于 总 线 的 互 连 结构 带宽 固定 ， 无 法 随 着 核 数 增加 而 
扩展 。 而 要 想 在 CMP ee 高 效 和 高 带宽 的 核 间 通信 是 关键 ， 尤 其 是 片上 核 
数 很 多 时 。 图 8-10 给 出 了 一 个 共享 L2 cache 的 八 核 CMP 结构 ，L2 cache 分 为 8 个 bank， 每 个 
处 理 器 核 通 过 一 个 8 x9 tone L2 cache bank 和 IO 上 。 在 这 种 架构 中 ， 每 个 处 理 
器 核 可 以 同时 访问 多 个 cache bank， 但 多 个 核 不 能 同时 访问 同一 个 cache bank。 相 比 总 线 和 环 
结构 ， 交 叉 开 关 互 连结 构 在 设计 和 验证 上 都 更 加 复杂 。 
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图 8-10 ”基于 交叉 开关 的 CMP 结构 : 处 理 器 核 和 cache bank 及 4 个 片上 内 存 控 
制 器 通过 8 x9 的 交叉 开关 互 连 


共享 cache 架构 

在 复杂 互 连 的 CMP 架构 中 ， 由 于 数据 包 路 由 具有 动态 性 ， 因 此 ， 一致 性 常常 通过 点 对 点 
的 目录 协议 来 实现 。 目 录 必须 包含 Ll cache 中 块 的 全 局 状态 的 完整 信息 ， 在 MSI- 无 效 协议 的 上 
下 文中 ， 该 信息 必须 包括 Ll cache 副本 的 位 置 ， 以 及 指示 数据 块 是 否 处 于 共享 或 修改 状态 。 通 
常 ，L1 cache 是 组 相 联 的 ， 且 使 用 存储 块 地 址 的 最 低 有 效 位 进行 组 (set) 索引 ， 块 地 址 的 最 低 
有 效 位 也 用 来 索引 L2 cache 的 bank 号 ， 因 此 ， 使 用 相同 位 索引 出 来 Ll cache 中 的 所 有 的 组 都 
位 于 同一 个 L2 cache bank 中 ,并 且 这 些 组 内 的 所 有 一 致 性 事务 都 在 cache bank 本 地 完成 。 如 
图 8-11 所 示 ，L2 的 bank 选择 位 是 Ll cache 索引 位 的 一 部 分 ， 比 如 ,假定 12 cache bank (如 
图 8-10) 数 是 8 个， 那么 Ll cache 索引 的 低 3 位 指向 L2 cache bank， 并 且 Ll cache 组 按照 交错 
的 方式 映射 到 8 个 L2 bank 中 。 

物理 地 址 


rm 块 内 偏 移 


图 8-11 共享 L2 cache bank 的 CMP 结构 中 ， 地 址 位 到 LI 和 -I2 cache 的 映射 方式 


5.4 节 介绍 过 一 种 名 为 “存在 标志 向 量 协议 ”的 简单 协议 。 假 定 共享 L2 cache 和 私有 Ll 
cache 之 间 是 包含 关系 ， 存 在 标志 向 量 记 录 了 Ll cache 块 的 全 局 状态 ， 并 与 L2 bank 中 的 每 个 
cache 行 相关 联 。 例 如 ， 每 个 与 L2 cache 行 相关 联 的 目录 项 可 能 包含 n 个 存在 位 (假定 是 个 
处 理 器 核 ) 和 一 个 状态 位 (共享 或 脏 状 态 ) ， 就 像 基 于 目录 的 分 布 式 共享 内 存 系统 中 的 做 法 。 
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当 接 收 到 Ll 访问 请 求 ，L2 bank 控制 器 就 检查 其 对 应 cache 组 中 的 内 容 ， 当 命中 时 查询 对 应 的 
存在 标志 向 量 (该 向 量 标记 了 Ll cache 块 的 全 局 状态 ) ， 基 于 查询 到 的 状态 ， 再 按照 类 似 于 cc- 
NUMA ( 见 5.4 节 ) 系统 中 的 方式 同 Ll cache 控制 器 进行 交互 。 和 ce- NUMA 中 的 主要 区 别 在 
于 : 这 里 L2 可 能 会 失效 ， 当 出 现 这 种 情况 时 ， 将 推迟 一 致 性 事务 处 理 ， 且 L2 必须 先 从 下 一 级 
存储 中 装载 对 应 的 数据 块 。 

通常 来 讲 ， 存 在 位 向 量 会 占用 一 定 的 存储 空间 ， 因 为 共享 L2 cache 的 cache 行 数量 通常 比 
所 有 Ll cache 行 的 总 和 还 要 多 很 多 ， 这 导致 目录 中 有 大 量 的 目录 项 是 用 不 到 的 。 因 此 ， 另 一 种 
可 能 的 目录 组 织 方 式 是 ， 在 目录 中 维护 L2 eache 包含 的 所 有 LI cache 内 容 的 映射 关系 ， 称 为 
LI- 映 射 目 录 ， 这 种 映射 方式 仍然 是 分 布 式 的 ， 利 用 了 势 享 L2 cache 按照 bank 交错 组 织 的 特 
点 。 每 个 L2 bank 中 都 包含 一 个 目录 结构 ， 记 录 了 映射 到 该 bank 的 所 有 Ll cache 的 组 内 容 ， 因 
此 ， 目 录 结 构 的 大 小 与 Ll 的 cache 行 数 (而 不 是 L2 的 cache 行 数 ) 成 正比 。 这 种 目录 结构 的 
一 个 简单 实现 是 为 所 有 了 映射 到 该 bank 的 LI cache 组 的 目录 项 保存 一 个 精确 副本 (包括 Ll 的 标 
识 位 (tag) 和 状态 位 )， 由 于 Ll 的 tag 大 小 取决 于 物理 内 存 的 大 小 ， 且 L2 cache 的 大 小 远 小 于 
内 存 ， 因 此 这 种 方法 的 开销 非常 高 。 与 之 相反 ，L1- 映 射 目录 结构 下 的 tag 只 应 包含 用 于 识别 
L2 cache 行 的 位 ， 这 样 tag 大 小 就 取决 于 I2 的 大 小 ， 而 不 是 内 存 的 大 小 。 和 内 存 地 址 一 样 ，L2 
中 的 块 位 置 也 唯一 标识 了 一 块 数据 块 。 需 要 注意 的 是 ， 共 享 2 和 所 有 L1 之 间 需 要 维持 一 种 包 
含 的 关系 。 

L1- 映 射 目录 结构 中 ， 和 L2 cache bank 相关 联 的 部 分 包含 了 映射 到 该 bank 的 所 有 Ll cache 
行 ， 如 图 8-12 所 示 。 图 中 ，8 个 处 理 器 核 共 享 16 路 L2 cache bank， 每 个 处 理 器 核 配备 一 个 两 
路 组 相 联 的 Ll cache (假定 是 指令 /数据 统一 的 Ll cache) 。 图 中 的 例子 中 ，L1- 映 射 目 录 结 构 中 
对 应 不 同 处 理 器 核 的 三 个 指针 指向 L2 的 第 10 个 bank 中 的 某 个 cache 行 ， 这些 指 针 在 Ll- 映射 
目录 中 是 作为 标志 位 使 用 的 ， 位 数 很 少 ， 每 个 指针 必须 能 够 确定 L2 cache 的 bank 索引 号 以 及 
LI2 cache 行 的 组 相 联 号 。 参 考 图 8-11 ，L2 cache bank 索引 中 虚线 右 侧 的 位 是 LL cache 索引 的 一 
部 分 ， 因 此 ， 已 经 隐 含 在 L1- 了 映射 目录 的 组 索引 中 ， 无 需 包 含 在 tag 标识 位 中 。 为 了 确定 I2 中 
的 组 索引 号 ，L2 cache bank 索引 中 除去 包含 在 Ll cache 索引 位 中 的 那 部 分 之 外 【也 就 是 虚线 左 
侧 的 部 分 ) 的 位 必须 包含 在 tag 中 ， 在 tag 标识 位 中 还 需要 添加 4 位 来 表示 组 相 联 号 。 通 过 将 
表示 L2 bank 索引 的 位 和 表示 组 相连 号 的 位 连接 起 来 ， 就 形成 了 L2 cache bank 中 包含 该 数据 块 
的 cache 行 的 物理 地 址 。LI1- 映 射 目 录 的 每 项 中 还 需要 两 个 状态 位 〈 有 效 位 和 脏 位 ) 以 便 跟 踪 
记录 Ll cache 数据 块 的 状态 。 

L2 cache bank 
L2 组 相 联 号 一 > 0 1 8 9 -10 112 ta 
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和 L2 cache bank 关 联 的 L1- 映 射 目录 


图 8-12 - 带 L1- 映 射 目录 的 共享 L2 cache bank 
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当 接 收 到 来 自 Ll cache 的 请 求 时 ，L2 cache 的 bank 控制 器 先 查找 对 应 的 组 内 容 ， 若 命中 ， 
则 构建 指向 cache 行 的 指针 (组 相连 号 对 应 的 位 加 上 L2 cache bank 索引 位 ) ， 并 将 其 作为 访问 
L1- 映 射 目 录 的 地 址 ， 然 后 将 来 自 目录 的 匹配 响应 组 合成 存在 位 向 量 ， 然 后 协议 就 可 以 按照 存 
在 标志 向 量 协 议 的 方式 继续 处 理 了 。 

假定 CMP 系统 包含 8 个 处 理 器 核 和 一 个 大 小 为 4MB 的 共享 L2 cache， 每 个 处 理 器 
核 包 含 一 个 32KB 的 Ll 指令 cache 和 一 个 32KB 的 LI 数据 cache， 两 个 Ll1 cache 的 组 织 方式 都 
.是 四 路 组 相 联 ， 且 LI cache 和 L2 cache 的 块 大 小 相等 ， 下 面 我 们 对 存在 标志 向 量 目录 和 L1- 映 
射 目 录 的 位 开销 进行 对 比 。 

首先 ，L1 指令 cache 不 需要 维护 一 致 性 ， 因 此 可 以 忽略 。 其 次 ， 这 里 没有 给 出 L2 的 bank 
数目 ， 但 这 并 不 影响 我 们 进行 对 比 ， 因 为 我 们 要 计算 所 有 bank 中 L1- 映 射 目 录 的 总 和 。 此 外 ， 
这 个 问题 也 与 L2 中 的 组 相 联 度 无 关 (也 没有 给 出 来 ) ， 并 且 ， 这 里 也 没有 给 出 cache 的 块 大 
小 ,我们 暂且 用 B 来 表示 块 字 节 数 。 

首先 ， 在 存在 标志 向 量 目录 情况 下 ， 对 应 每 个 L2 cache 行 需 要 9 位 来 进行 标记 (每 个 处 理 
器 核 1 位 ， 再 加 上 1 个 脏 位 ) ， 因 此 总 的 位 数 为 9 x4MB/B。 

在 LI- 映射 目录 中 ， 系 统 中 的 每 个 LI cache 行 都 需要 一 个 指向 L2 cache 行 的 指针 ， 以 及 2 个 
状态 位 。 指 针 的 大 小 与 L2 中 的 cache 行 数目 相关 ， 在 这 个 例子 中 ，L2 的 cache 行 数 为 4MB/B, 不 
过 Ll 的 索引 位 是 隐 含 的 ， 因 此 从 标志 中 删除 。 由 于 Ll 数据 cache 是 四 路 组 相 联 的 ，L1- 映 射 目 
录 的 每 项 中 包含 4 个 标志 。 标 志 的 大 小 为 log, (4MB/B)-log,(32KB/4B) =9， 这 样 L1- 映 射 目录 
中 每 项 的 总 位 数 为 11 (包括 2 个 状态 位 ) ， 因 此 所 有 bank 的 Ll- 映射 目录 的 总 项 数 是 所 有 Ll 
cache 中 行 的 总 数 ， 在 这 里 是 8 ( 核 数 ) x32KB/B =256KB/B。 

因此 ， 存 在 标志 向 量 目 录 和 L1- 映 射 目 录 的 位 开销 之 比 为 (9 x4MB)/(11l x256KB) =13， 
这 个 值 与 L2 中 的 块 大 小 、bank 数目 、L2 中 的 组 相 联 度 等 均 无 关 ， 它 大 概 正比 于 CMP 中 共享 
L2 cache 的 大 小 除 以 所 有 L1 cache 的 总 大 小 。 本 

CMP 中 的 cache 和 内 存 带 宽 考虑 

片 外 带宽 是 如 今 CMP 系统 中 的 关键 参数 ，CMP 通过 执行 更 多 的 线程 来 提高 性 能 ， 过 去 困 
扰 体系 结构 发 展 的 存储 墙 问题 现 已 转化 成 存储 带宽 墙 的 问题 。 自 2000 年 以 来 ， 片 外 带宽 已 逐 
渐变 得 比 内 存 访问 延迟 更 加 重要 。 片 外 带宽 主要 受 引 脚 数 量 和 频率 的 影响 ， 引 脚 数量 限制 了 每 
个 芯片 上 的 访 存 通道 数量 ， 当 每 个 周期 内 的 片 外 访 存 次 数 超过 了 内 存 通道 数 时 ， 就 会 有 新 的 请 
求 必须 在 芯片 上 排队 ， 以 等 待 对 内 存 通道 的 访问 。 这 种 排队 会 导致 所 有 请 求 的 访 存 延 迟 出 现 超 
线性 增长 。 目 前 主要 有 两 种 处 理 片 外 带宽 问题 的 基本 方法 : (1) 减少 线程 的 带宽 需求 ; 
(2) 增加 可 利用 的 片 外 带宽 。 

， 为 了 有 效 利 用 CMP 上 的 多 个 处 理 器 核 ， 应 用 程序 必须 是 多 线程 的 ， 或 者 有 多 个 独立 的 应 
用 线程 在 不 同 的 处 理 器 核 上 并 行 执行 。 一 般 来 说 ， 如 果 共 享 cache 的 访问 速度 足够 快 ， 则 共享 
cache 总 是 优 于 私有 cache， 这 是 因为 在 相同 尺寸 下 ， 共 享 cache 的 有 效 容 量 通常 要 大 于 私有 
cache 的 有 效 容量 。 此 外 ,共享 cache 也 没有 一 致 性 的 问题 。 

当 多 个 线程 运行 在 同一 个 CMP 系统 上 时 ， 共 享 cache 可 能 出 现 两 种 效果 : 要 么 相互 合作 共 
享 ， 要 么 相互 干扰 。 在 合作 共享 的 情况 下 ， 线程 写 人 共享 cache 的 存储 块 也 可 以 被 其 他 线程 使 
用 。 例 如 ， 当 循环 迭代 在 不 同 的 处 理 器 核 上 并 行 执行 时 ， 所 有 核 的 指令 都 是 相同 的 ， 因 此 ， 如 
果 一 个 处 理 器 核 将 循环 迭代 的 指令 取 到 共享 cache 中 ， 则 其 他 所 有 处 理 器 核 都 会 受益 。 这 也 适 
用 于 共享 数据 ， 当 一 个 线程 在 共享 cache 中 预 取 数据 时 ， 它 同时 也 是 在 为 其 他 线程 预 取 数 据 。 
由 于 共享 的 效果 ， 应 用 程序 在 合作 共享 场景 下 的 片 外 带宽 需求 会 有 所 降低 。 与 之 相反 ， 在 相互 
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干扰 的 情况 下 ， 线 程 之 间 无 法 互相 帮助 ， 当 多 个 独立 的 应 用 程序 在 同一 个 CMP 上 执行 ， 且 应 
用 之 间 没 有 共享 时 ， 则 应 用 程序 很 可 能 会 将 其 他 程序 的 数据 从 共享 cache 中 替换 出 去 ， 在 这 种 
情况 下 ， 每 次 在 新 的 处 理 器 核 上 启动 一 个 新 的 应 用 程序 时 ， 都 会 增加 其 他 正在 运行 的 应 用 程序 
的 带宽 需求 ， 因 此 应 用 程序 的 带宽 需求 会 随 着 处 理 器 核 数 的 增加 呈 超 线性 增长 。 

以 前 ， 访 存 延迟 是 存储 的 主要 问题 ， 因 此 技术 进步 的 作用 显得 非常 关键 ,然而 ,在 CMP 
系统 中 ， 人 情况 却 不 一 样 了 。 比 如 ， 数 据 预 取 通常 是 在 需要 该 数据 之 前 ， 就 将 它 从 较 低 级 别 的 存 
储 层次 中 预 取 到 cache 中 。 预 取 是 一 种 基于 推测 性 的 技术 ， 它 需要 预测 在 不 久 的 将 来 ， 哪 些 数 
据 地 址 会 被 访问 ， 并 将 对 应 的 数据 预 取 到 cache 中 。 当 预测 错误 时 ， 无 效 预 取 会 由 于 线程 读 人 
了 无 用 的 cache 块 而 导致 片 外 带宽 需求 的 增加 。 更 糟糕 的 是 ， 预 取 可 能 会 因为 替换 掉 了 那些 在 
不 久 的 将 来 会 再 次 被 访问 的 存储 块 而 污染 cache， 并 因此 增加 其 他 cache 行 的 压力 ，cache 污染 
往往 会 进一步 加 剧 片 外 带宽 问题 。 预 取 准 确 性 和 cache 污染 甚至 在 单 核 处 理 器 中 都 存在 一 定 的 
问题 ， 而 在 CMP 系统 中 ， 问 题 就 更 明显 。 

随 着 集成 水 平 的 不 断 进步 ， 芯 片上 将 会 集成 更 多 层次 的 cache 结构 ， 且 片上 存储 层次 将 会 
变 得 更 加 复杂 ， 这 一 趋势 早 在 Power 7 处 理 器 架构 中 就 有 所 显现 。 在 Power 7 中 ， 每 个 处 理 器 核 
都 有 一 个 分 离 的 私有 指令 /数据 Ll cache， 和 一 个 统一 的 私有 L2 cache， 与 此 同时 ， 片 上 还 有 一 
个 大 容量 的 共享 L3 cache (32MB ) ，L3 cache 是 采用 内 嵌 DRAM 技术 实现 的 = 在 芯片 上 同 
DRAM 集成 在 一 起 的 还 有 随机 逻辑 和 SRAM 逻辑 。 

所 有 处 理 器 核 总 的 带宽 需求 迫使 CMP 系统 必须 通过 高 带宽 的 接口 连接 到 片 外 资源 ， 因 此 ， 
CMP 是 将 系统 组 件 集成 到 片上 的 主要 驱动 力 。 图 8-9 展示 了 如 何 将 多 个 系统 组 件 集成 到 片上 以 
提升 片 外 带宽 。 图 中 显示 了 片上 集成 的 点 对 点 互 连 接口 ， 比 如 Intel 的 快速 通道 互 连 (QPI) 和 
AMD 的 超 传输 (HT) 接口 ， 多 个 芯片 间 可 以 通过 这 种 接口 进行 高 带宽 、 低 延迟 的 相互 通信 。 
除了 芯片 间 的 通信 接口 ， 目 前 的 CMP 还 集成 了 片上 存储 控制 器 ， 以 提供 更 高 的 内 存 带宽 。 例 
如 图 8-9 中 的 芯片 上 也 集成 了 内 存 控 制 器 ， 该 控制 器 运行 在 与 主 处 理 器 相同 的 时 钟 频率 下 ， 相 
比 于 片 外 控制 器 的 实现 ， 集 成 在 片上 的 内 存 控制 器 可 以 以 更 高 的 时 钟 速率 执行 访 存 协议 ， 因 
此 ， 可 以 显著 降低 访 存 延 迟 。Itel 的 醋 害 7 在 片上 内 存 控 制 器 中 支持 了 高 速 的 DDR3 存储 接 
口 ， 从 而 为 所 有 处 理 器 核 提 供 了 约 21 GB/s 的 共享 访 存 带宽 。 片上 集成 系统 组 件 的 不 足 之 处 是 
处 理 器 被 绑 定 在 特定 的 接口 标准 上 。 例 如 ， 如 果 片 上 内 存 控制 器 实现 了 DDR2 接口 ， 则 任何 基 
于 该 CMP 构建 的 系统 都 必须 使 用 DDR2 接口 的 双 列 直 插 存储 模块 (DIMM) ， 即 使 在 不 和 的 将 
来 ，DDR3 DIMM 可 以 提供 更 好 的 存储 解决 方案 (更 高 的 带宽 和 更 低 的 成 本 )， 也 无 法 进行 
替换 。 


8. 4.2 基于 异 构 处 理 器 核 的 CMP 系统 


除了 系统 集成 能 力 的 多 样 性 ，CMP 还 提供 了 广泛 的 处 理 器 核 设计 选择 。 考 虑 到 处 理 器 核 
的 复杂 性 ， 在 一 种 极端 情况 下 ，CMP 可 能 由 多 个 简单 的 并 行 运行 多 个 线程 的 顺序 处 理 器 核 来 ， 
构建 ， 以 此 提高 吞吐 量 性 能 ; 在 另 一 种 极端 情况 下 ，CMP 可 能 仅 由 少数 几 个 规模 大 且 能 力 强 
的 乱 序 处 理 器 核 构建 而 成 。 大 量 的 小 处 理 器 核 非 常 适合 于 提高 具有 大 量 并 行 线程 数 的 工作 负载 
的 吞吐 量 ， 比 如 商业 或 数据 库 工作 负载 ; 而 少量 的 大 处 理 器 核 则 非常 适合 于 提高 单线 程 性 能 或 
线程 并 行 度 受 限 的 工作 负载 的 性 能 。 

在 许多 应 用 情形 下 ， 运 行 在 CMP 上 的 应 用 程序 会 导致 系统 倾向 于 由 异 构 组 件 构成 。 如 果 
CMP 中 的 处 理 器 核 数 增多 ， 且 总 的 功 耗 固定 不 变 ， 那 么 每 个 处 理 器 核 的 功 耗 限制 将 超 线性 下 
降 ， 这 是 由 于 片上 网 络 (如 点 对 点 网 络 ) 的 功 耗 会 随 着 处 理 器 核 数 的 增多 而 超 线性 增长 ， 这 
样 留 给 处 理 器 核 的 总 功 耗 就 会 变 得 更 少 。 因 此 , 在 含有 大 量 简单 处 理 器 核 的 CMP 系统 中 ， 依 
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赖 于 强大 乱 序 处 理 器 核 的 单线 程 性 能 将 显著 下 降 。 除 了 少数 用 于 科学 计算 的 代码 ， 大 多 数 并 行 
程序 都 有 大 量 的 串 行 代码 穿插 在 并 行 代 码 中 ， 在 串 行 和 并 行 代码 中 同时 实现 较 好 的 性 能 是 一 个 
内 在 矛盾 的 任务 。 由 于 对 微 架构 有 截然 不 同 的 需求 ， 在 固定 功 耗 限制 下 ， 同 时 优化 单线 程 ( 串 
行 部 分 ) 和 吞吐 量 〈 并 行 部 分 ) 性 能 几乎 是 不 可 能 的 。 针 对 单线 程 执行 延迟 的 微 架 构 技 术 有 : 
乱 序 执行 、 推 测 执行 和 深度 流水 线 等 。 在 这 些 技术 中 ， 每 条 指令 消耗 的 能 量 (EPI) 相对 较 高 ， 
因此 ， 在 给 定 功 耗 限制 下 ，CMP 中 可 容纳 的 CPU 核 数 有 限 。 男 一 方面 ,吞吐 量 性 能 的 提升 则 
要 求 大 量 的 低 功 耗 处 理 器 核 以 充分 利用 线程 并 行 性 。 

“”“ 异 构 CMP 很 好 地 解决 了 单线 程 应 用 和 多 线程 应 用 之 间 的 需求 矛盾 。 异 构 CMP 中 的 处 理 器 
核 可 以 在 功能 和 性 能 方面 均 有 所 不 同性 能 的 不 对 称 可 以 通过 多 种 方法 实现 ， 一 种 方法 是 基于 
总 的 并 行 度 来 调节 总 的 EPI， 当 应 用 只 有 少量 并 行 性 时 ， 处 理 器 可 以 将 所 有 的 功 耗 用 于 这 些 少 
数 指令 的 处 理 ; -而 当 应 用 具有 大 量 并 行 性 时 ， 处 理 器 应 当 在 每 条 指令 上 花费 较 少 的 功 耗 ， 以 便 
支持 大 量 指令 的 并 行 处 理 。 具 有 不 同 EPI 特征 的 异 构 系统 可 以 通过 多 种 方式 来 实现 ， 比 如 ， 通 
过 处 理 器 核 动 态 电 压 频率 调节 (DVFS) 技术 ; 或 设计 由 不 同 功 耗 /性 能 特征 处 理 器 核 构 成 的 处 
理 器 ， 都 可 以 很 容易 地 改变 EPI， 表 8-3 列 出 了 四 种 实现 异 构 特 征 的 技术 所 对 应 的 EPI 范围 。 


表 8-3 实现 异 构 处 理 器 核 的 方法 及 其 对 应 的 EPI 范围 
方法 EPI 范围 改变 EPI 所 需 时 间 








DVFS 1:2 to 1:4 100hs， 调 节 Vee 
改变 可 用 资源 1:F to 1:2 lps， 填 充 LI 
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另 一 种 改变 EPI 的 方法 是 : 根据 应 用 的 需求 ， 动 态 改 变 处 理 器 核 的 可 用 资源 总 量 。 例如 ， 
当 运 行 工作 集 较 小 的 应 用 时 ， 可 以 关闭 一 些 cache bank 来 减 小 cache 大 小 和 相 联 度 , 参考 第 2 
章 的 式 (2. 12) ， 可 知 该 方法 可 以 有 效 地 减少 电容 (C) 和 动态 功 耗 ; :静态 功 耗 也 可 以 通过 关 
闭 cache bank-` 的 功 耗 而 得 以 降低 。 此 后 ， 当 应 用 的 工作 集 又 增 大 时 ， 整 个 cache 再 重新 激活 。 
在 很 多 处 理 器 中 ， 有 50% 的 芯片 面积 都 是 分 配给 cache 的 ， 因此， 通过 及 时 关闭 部 分 cache， 
总 的 电容 量 最 多 可 减少 为 原来 的 一 半 ，EPI 也 可 以 对 应 减少 。 同 样 我 们 也 可 以 发 现 ， 即 使 在 最 
理想 的 情况 下 ， 这 种 方法 能 节省 的 EPI 也 最 多 在 50% 左右 。 

我 们 还 可 以 通过 对 推测 执行 进行 控制 (控制 流水 线 中 正在 执行 的 指令 数 ) 的 方式 来 改变 
EPI。 当 分 支 预 测 器 的 准确 率 很 低 时 ， 这 种 方法 特别 有 用 ， 因 为 无 论 错 误 推测 执行 的 指令 何 时 
被 清空 ， 都 会 浪费 大 量 的 功 耗 。 因 此 ， 我 们 不 再 激进 地 跨越 多 个 未 完成 的 分 支 指 令 继 续 取 指 ， 
而 是 设 定好 一 个 姜 值 ， 当 流水 线 中 未 完成 分 支 指令 数 达 到 赣 值 时 就 阻塞 流水 线 中 的 取 指 。 通 过 
对 推测 执行 进行 控制 的 方法 可 以 获得 的 用 于 改变 EPI 的 时 间 ， 大 概 和 最 坏 情 况 下 分 支 预测 错误 
导致 流水 线 清空 的 时 间 相 等 。 由 于 限制 取 指 只 是 影响 了 电路 的 活跃 度 ， 而 大 多 数 的 处 理 器 结构 
仍然 在 工作 ， 因 此 通过 控制 推测 执行 的 方法 所 能 改变 的 EPI 值 比较 有 限 。 

上 述 4 种 实现 异 构 的 技术 中 ， 具 体 选择 哪 一 种 取决 于 应 用 中 所 能 看 到 的 EPI 的 变化 次 数 ， 
以 及 切换 到 新 的 EPI 状态 时 的 开销 。 比 如 ， 在 DVFS 技术 中 ， 如 果 应 用 程序 的 EPI 需求 比 目 前 
的 电压 /频率 设 定 下 的 EPI 更 低 ， 那 么 就 可 以 继续 减少 处 理 器 的 电压 和 频率 ,不 过 ， 由 于 PLL 
同步 的 开销 ， 改 变 电 压 和 频率 通常 需要 10 ~ 100us 的 时 间 。 而 要 获得 范围 最 宽 的 EPI 调整 ， 可 
以 通过 混合 不 同 处 理 器 核 的 方式 来 实现 ， 其 中 一 些 是 简单 的 顺序 处 理 器 核 ， 而 男 一 些 是 复杂 的 
乱 序 处 理 器 核 (因为 复杂 乱 序 处 理 器 核 执 行 一 条 指令 的 功 耗 约 为 简单 顺序 处 理 器 核 功 耗 的 
6 倍 ) 。 
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除了 性 能 差异 之 外 ，CMP 上 的 处 理 器 核 在 功能 上 也 是 异 构 的 。 例 如 ， 某 个 处 理 器 核 可 以 
为 加 密 提供 专门 的 支持 ,而 男 一 个 处 理 器 核 可 以 只 运行 图 形 密集 的 代码 。 在 性 能 异 构 的 CMP 
中 ， 工 作 负 和 载 在 不 同 处 理 器 核 之 间 移动 ， 终 端 用 户 只 能 观察 到 执行 时 间 的 不 同 。 比 如 ， 某 个 工 
作 人 负载 在 复杂 乱 序 处 理 器 上 运行 只 需要 10s， 而 在 简单 顺序 处 理 器 上 运行 则 可 能 需要 100s。 

相 比 之 下 ,在 功能 异 构 CMP 中 ， 某 些 处 理 器 核 可 能 并 不 支持 运行 在 其 他 处 理 器 核 上 的 代 
码 执行 所 需 的 功能 ， 因 此 ， 工 作 负 载 可 能 无 法 在 处 理 器 核 间 移 动 。 为 了 使 工作 负载 充分 利用 功 
能 异 构 ， 必 须 提供 在 处 理 器 核 之 间 进行 负载 转移 的 机 制 ; 并 对 该 机 制 清晰 定义 。 这 种 机 制 在 当 
前 的 浮 点 协 处 理 器 或 图 形 处 理 器 已 经 存在 ;下面 我 们 探讨 一 下 ， 这 种 机 制 在 可 以 执行 所 有 浮 点 
操作 的 简单 浮 点 协 处 理 器 上 是 如 何 工作 的 。 当 处 理 器 核磁 到 浮 点 指令 时 ， 它 将 该 指令 的 PC 发 
送 给 浮 点 协 处 理 器 ， 并 等 待 执行 完成 以 及 结果 返回 ,该 机 制 对 软件 层 是 透明 的 ， 完 全 由 硬件 进 
行 处 理 。 现 在 我 们 再 考虑 一 个 更 加 复杂 的 情形 ;处理 器 核 需 要 将 一 个 场景 泻 染 的 任务 交 给 图 形 
处 理 器 进行 处 理 ; 此 时 多 主 处 理 器 提供 一 个 应 用 程序 编程 接口 (API) 给 软件 开发 人 员 ， 软 件 
开发 人 员 必 须 使 用 这 些 API 来 开发 运行 在 图 形 处 理 器 上 的 任务 ， 当 代码 编译 完成 时 ,这些 API 
被 转换 成 专门 的 指令 ; 当主 处 理 器 核 在 运行 时 ; 用 这 些 指令 来 控制 如 何 将 任务 转移 到 图 形 处 理 
器 上 。 

异 构 CMP 的 例子 

图 于 蕊 所 示 附 玛 MiCal 是 CNWP 异 构 没 计 不 二 二 二 一 一 一 一 二 一 一 一 一 二 一 贡 
的 一 个 极端 例子 ，Cell 包含 1 个 PowerPC 处 理 | 
单元 (PPE) 和 8 个 协 处 理 单元 (SPE)。PPE ， 
是 一 个 能 够 处 理 复杂 操作 的 两 路 SMT 处 理 器 | 
核 ， 而 每 个 SPE 是 一 个 双 发 射 的 顺序 处 理 器 ， | 
每 个 周期 至 多 可 以 发 射 2 条 SIMD 指令 。 借 助 | 
于 支持 SIMD 的 SPE, Cell CMP 的 向 量 处 理 能 “| 
力 有 了 显著 提高 。 在 SPE 和 PPE 之 间 , 没有 “| 基于 PowerPC 
用 于 支持 存储 一 致 性 的 硬件 ， 因 此 ， 需 要 程 ; 指令 集 的 PPE 
序 员 来 维护 异 构 CMP 上 的 一 致 性 。 te ri TPPE 核 4 

Intel 的 酷 害 订 通过 DVFS 对 EPI 的 调节 来 
支持 简单 版 本 的 异 构 CMP。Intel i7 通过 名 为 
“Turbo Boost” 的 技术 来 动态 调整 处 理 器 核 的 工作 频率 ， 以 此 来 匹配 工作 负载 的 变化 和 CPU 的 
利用 状况 。 如 果 4 个 处 理 器 核 中 只 有 一 个 是 活路 的， 并且 芯片 的 温度 、 功 耗 和 电流 是 在 额定 范 
围 内 的 ， 那 么 这 个 工作 处 理 器 核 的 时 钟 频率 可 以 稍微 提高 (当前 酷 害 7 的 实现 方案 中 ， 频 率 
可 以 提高 133MHz)。 


8. 4. 3” 连 体 处 理 器 核 


在 连 体 处 理 器 核 构成 的 CMP 中， 处 理 器 核 之 间 共 享 资源 的 粒度 比 cache 的 共享 粒度 更 细 ， 
连 体 处 理 器 核 可 以 共享 如 ALU 这 类 的 资源 。 连 体 处 理 器 核 是 受到 单个 处 理 器 内 资源 利用 具有 
明显 的 时 间 差 异性 这 一 现象 的 启发 而 提出 的 ， 特 别 是 复杂 的 资源 ， 如 浮 点 功能 单元 占据 了 大 量 
的 芯片 面积 ， 但 对 大 多 数 工 作 负 载 来 说 ， 却 并 未 得 到 充分 利用 。 连 体 处 理 器 核能 够 在 片上 核 间 
共享 这 些 占用 大 量 面 积 但 是 利用 率 又 很 低 的 资源 ， 这 种 细 粒 度 共享 是 通过 处 理 器 核 和 共享 资源 
间 的 高 速 互 连 来 实现 的 。 

为 了 有 效 地 共享 资源 ， 在 CMP 中 对 处 理 器 核 进行 布局 时 ， 必 须 考虑 处 理 器 核对 共享 资源 
的 访问 模式 。 如 果 浮 点 单元 (FPU) 在 同 构 CMP 的 多 个 处 理 器 核 之 间 共 享 ， 则 在 芯片 布局 上 ， 





图 8-13 IBM Cell 异 构 CMP 
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应 该 让 每 个 处 理 器 核 的 执行 流水 级 与 FPU 保持 等 距 ， 这 样 所 有 处 理 器 核对 FPU 的 访问 延迟 才 
会 相等 。 除 了 确保 访问 延迟 ， 在 资源 共享 时 ， 还 需要 引入 仲裁 机 制 以 防止 多 个 处 理 器 核 在 同一 
周期 内 都 对 共享 资源 进行 访问 。 现 有 的 、 针 对 处 理 器 核 间 共 享 总 线 的 仲裁 方法 也 同样 适用 于 这 
里 的 资源 共享 的 情况 。 需 要 注意 的 是 ， 连 体 处 理 器 核 和 处 理 器 核 异 构 的 概念 在 设计 空间 上 是 正 
交 的 ， 换 句 话说 ， 人 们 既 可 以 设计 同 构 的 连 体 处 理 器 核 CMP， 也 可 以 设计 异 构 的 连 体 处 理 器 
核 CMP。 

图 8-14 展示 了 一 个 基于 连 体 处 理 器 核 的 CMP 系 
` 统 的 可 能 实现 ， 该 系统 中 包含 两 个 处 理 器 核 ， 核 间 共 
享 同一 个 FPU。 两 条 流水 线 的 执行 阶段 被 连接 到 一 个 
请 求 缓冲 区 ， 当 执行 阶段 遇 到 浮 点 指令 时 ， 该 操作 的 
两 个 源 操作 数 被 放置 到 请 求 缓冲 区 中 ， 仲 裁 逻辑 决定 
来 自 两 个 处 理 器 核 的 请 求 的 服务 顺序 。 需 要 注意 的 是 ， 
来 自 同一 个 处 理 器 核 的 多 个 请 求 会 按照 请 求 缓冲 区 接 
收 请 求 的 顺序 来 依次 服务 ， 仲 裁 逻 辑 只 决定 来 自 不 同 
处 理 器 核 的 请 求 之 间 的 顺序 。 

Sun 公司 的 SPARC TI 处 理 器 是 基于 连 体 处 理 器 核 
的 CMP 结构 的 典型 例子 : TI 在 每 个 芯片 上 有 8 个 处 
理 器 核 ， 核 间 共 享 一 个 FPU 以 减少 芯片 面积 开销 。 每 ”图 8-14 共享 浮 点 单元 (FPU) 的 连 体 
个 处 理 器 核 都 支持 细 粒 度 多 线程 ， 执 行 过 程 中 遇 到 任 处 理 器 核 
何 浮 点 运算 指令 时 ， 就 会 将 对 应 的 核 ID 、 操 作 码 、 操 作 数 在 内 的 信息 发 送 给 FPU 共享 单元 ， 
FPU 计算 结果 ， 并 将 其 返回 给 请 求 处 理 器 核 。 在 这 期 间 ， 请 求 处 理 器 核 会 暂停 当前 线程 的 执行 
以 等 待 浮 点 运算 完成 ， 同 时 会 从 其 他 正在 运行 的 线程 中 取 指 执行 。 


8.5 编程 模型 


在 8.3 节 和 8.4 节 中 ,我 们 介绍 了 各 种 不 同 的 硬件 多 线程 处 理 器 核 和 CMP 设计 选择 ， 与 此 
同时 ，CMP 系统 对 应 的 编程 模型 也 有 很 多 选择 。 片 上 多 线程 支持 无 需 系统 干预 的 快速 上 下 文 
切换 ，CMP 具有 低 延 迟 的 片上 网 络 和 共享 的 最 后 一 级 cache (LLC) ， 这 有 助 于 提升 核 间 通 信 的 
效率 。 上 述 硬件 特性 对 软件 开发 人 员 的 主要 影响 是 : 开发 人 员 可 以 创建 出 通信 粒度 更 细 、 长 度 
更 短 的 线程 。 

线程 通信 开销 的 影响 ”为 了 说 明 在 不 同 线程 粒度 下 通信 延迟 的 影响 ， 首 先 考虑 一 
个 简单 的 例子 。 应 用 开发 人 员 需 要 判断 一 个 循环 的 两 次 连续 从 代 〈 称 为 迭代 1 和 迭代 2) 是 否 
可 以 在 两 个 不 同 的 线程 上 下 文中 并 行 执行 ， 假 定 迭 代 1 需 要 花费 Tns 完成 ， 并 在 7/2 时 刻 产 生 
供 和 迭代 2 使 用 的 数据 ,和 迭代 2 先 运行 7/2ns， 然 后 它 必须 在 收 到 来 自 迭 代 1 的 数据 后 才能 继续 
执行 。 假 定 在 SMP 系统 中 ， 数 据 通 信 的 时 间 为 100ns， 在 CMP 系统 中 ， 处 理 器 核 之 间 的 通信 延 
迟 为 10ns， 而 在 多 线程 处 理 需 核 中 ， 通 信 延 迟 为 0。 针 对 上 面 每 一 种 情况 ， 分 析 在 了 取 什 么 值 
的 情况 下 ， 并 行 执行 这 两 个 线程 会 有 优势 ? 

首先 考虑 SMP 的 情况 。 和 迭代 2 需要 7T/2 +100 +7/2ns 才能 完成 ， 由 于 和 迭代 工 和 和 迭代 2 并 行 
执行 ,在 SMP 上 的 总 执行 时 间 是 了 + 100ns， 如 果 两 次 迭代 在 单个 处 理 器 核 上 串 行 执行 ,总 的 
执行 时 间 将 是 27， 假 定 和 迭代 1 通过 寄存 器 将 数据 传递 给 迭代 2， 没 有 通信 开销 , 为 了 使 SMP 上 
的 并 行 执 行 更 优 ，27 必须 大 于 了 +100， 即 了 > 100ns。 

再 考虑 CMP 上 两 个 处 理 器 核 运行 相同 迭代 的 情况 。 当 27>T+10， 即 了 > 10ns 时 ，CMP 上 
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的 并 行 执行 效果 会 更 优 。 因 此 ， 在 CMP 上, 为 了 利用 并 行 性 ， 每 个 线程 的 大 小 只 需 是 SMP 上 
线程 大 小 的 十 分 之 一 。 
最 后 ， 考 虑 两 个 线程 运行 在 同一 处 理 器 核 上 的 情况 。 在 这 种 情况 下 ， 从 通信 零 延 迟 的 角度 
来 看 ， 并 行 执行 结果 总 是 更 优 的 。 4 
本 节 中 ,我 们 主要 探讨 从 软件 的 角度 如 何 利 用 硬件 架构 提供 的 各 种 特征 。 


8.5.1 独立 进程 


一 种 充分 利用 多 线程 上 下 文 的 简单 方法 是 运行 多 个 独立 的 进程 。 例 如 ， 台 式 机 用 户 通常 并 
行 运行 多 个 应 用 > 例如 Web 浏览 器 、 流 媒体 视频 和 文档 编辑 器 ， 这 些 应 用 之 间 相 互 独立 ， 它 
们 不 共享 任何 数据 或 指令 。 在 独立 处 理 器 核 或 线程 上 下 文中 ， 以 独立 进程 的 方式 运行 每 个 应 用 
是 开发 利用 片上 多 核 的 一 种 简单 方法 ， 不 需要 用 户 或 者 应 用 开发 人 员 做 什么 工作 。 

使 用 CMP 作为 多 处 理 器 引擎 来 运行 独立 进程 ， 这 是 开发 利用 处 理 器 核 和 线程 上 下 文 的 最 
常见 方法 ,特别 是 在 个 人 电脑 和 工作 站 的 商品 市 场 中 ， 不 过 这 种 方式 下 并 行 的 数量 会 受 限 于 用 
户 活动 的 数量 。 此 外 ， 独 立 的 进程 也 无 法 利用 :CMP 的 共享 资源 (多 个 独立 进程 是 互相 竞争 的 ) 
以 及 线程 间 通 信 延 迟 〈 多 个 独立 进程 之 间 不 传递 数据 ) 更 短 的 特征 。 比 如 ， 由 于 进程 间 的 相 
互 干扰 ， 每 个 进程 的 cache 失效 率 会 增加 ， 访 问 片 外 存储 的 总 线 请 求 率 也 会 提高 ; 从 而 导致 更 
严重 的 总 线 拥塞 和 更 长 时 间 的 cache 失效 开销 。 总 之 ， 这 种 方式 下 不 能 利用 共享 L2 cache 所 带 
来 的 任何 好 处 。 


8. 5.2 显 式 线程 并 行 


多 进程 处 理 的 方式 依赖 于 各 个 用 户 处 理 多 任务 的 能 力 ， 此 外 ， 也 可 以 用 于 多 个 用 户 共享 同 
一 台 机 器 的 场景 。 虽然 多 进程 方式 提高 了 CMP 的 资源 利用 率 ,但 每 个 用 户 任务 的 执行 时 间 却 
保持 不 变 ， 甚 至 可 能 由 于 资源 共享 的 负面 影响 而 变 得 更 加 糟糕 。 到 目前 为 止 ， 单 线程 的 性 能 大 
多 通过 开发 指令 级 并 行 (ILP) 以 及 缩短 时 钟 周期 时 间 来 实现 ， 随 着 ILP 提升 的 难度 越 来 越 大 ， 
线程 级 并 行 (TLP) 成 为 提升 应 用 性 能 的 新 方法 。 在 这 种 方法 中 ， 单 个 应 用 被 划分 成 多 个 线程 
分 配 到 多 个 线程 上 下 文中 并 行 运行 ， 线 程 之 间 通 过 紧密 交互 来 完成 数据 交换 。 从 应 用 中 提取 
TLP 来 加 快 执行 已 成 为 CMP 系统 的 关键 。 事 实 上 ， 除 非 应 用 并 行 化 的 目标 可 以 通过 某 种 方式 
解决 ， 否 则 通用 架构 在 未 来 是 无 法 充分 利用 摩尔 定律 带 来 的 资源 优势 的 。 不 幸 的 是 ， 软 件 并 行 
化 是 很 困难 的 一 件 事 ， 并 且 由 于 用 户 的 抵触 ， 一 些 遗 留 软件 甚至 无 法 进行 并 行 化 ， 此 外 ， 很 多 
关键 的 软件 〈 如 编译 器 ) 也 很 难 并 行 化 。 

程序 员 需 要 仔细 理解 应 用 程序 的 语义 ， 识 别 出 那 些 可 并 行 执行 的 代码 片段 ， 以 此 开发 出 多 
线程 代码 。 循 环 迭 代 和 函数 调用 是 两 种 常见 的 语言 结构 ， 程 序 员 很 容易 从 中 找到 可 并 行 的 线 
程 ， 只 要 循环 依赖 关系 可 以 消除 或 者 处 理 掉 ， 不 同 的 迭代 就 可 以 并 行 执行 。 有 效 地 识别 循环 依 


赖 关 系 ， 尽 可 能 编写 出 高 效 通 信 的 代码 是 程序 员 的 责任 。 循 环 中 的 并 行 迭代 对 任何 共享 数据 的 、 


修改 必须 通过 互 斥 锁 进行 保护 。 一 个 共享 数据 变量 的 例子 是 循环 迭代 计数 ， 由 于 每 个 线程 只 在 
每 次 循环 迭代 的 结尾 对 计数 器 进行 递增 ， 因 此 计数 器 的 递增 过 程 必须 在 互 斥 锁 的 保护 下 串 行 完 
成 。 当 每 个 线程 完成 分 配给 它 的 循环 迭代 次 数 时 ， 可 能 还 需要 等 待 其 他 所 有 线程 都 执行 完 才 能 
继续 推进 ， 这 种 等 待 可 以 通过 线程 同步 原 语 来 实现 。 应 用 开发 人 员 需 要 在 应 用 中 插入 合适 的 线 
程 同步 代码 ， 硬 件 只 是 为 互 斥 锁 和 barrier 同步 提供 简单 的 原 语 支 持 。 

程序 员 可 以 借助 软件 库 来 管理 并 行 线程 的 执行 ， 这 样 可 以 简化 线程 的 创建 、 同 步 、 通 信和 、 
退出 等 。 线 程 库 API 提供 了 对 应 的 宏 或 者 函数 调用 用 于 线程 管理 ， 它 们 将 程序 员 与 具体 底层 硬 
件 实现 的 同步 指令 进行 分 离 。Pthread 是 一 个 流行 的 线程 库 例子 ， 它 为 程序 员 提供 了 并 行 的 
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API， 通 过 该 线程 库 ， 程 序 员 可 以 创建 并 行 执行 的 线程 ， 在 互 斥 锁 的 保护 下 访问 共享 数据 ， 并 
调用 同步 函数 。 

基于 OpenMP 的 编程 API 以 标记 的 形式 提供 了 编译 制导 指令 ， 以 帮助 应 用 开发 人 员 识 别 出 
哪些 代码 段 适合 并 行 化 的 ， 程 序 员 通 过 在 循环 的 开始 处 插入 OpenMP 编译 制导 语句 来 标记 循环 
是 可 并 行 化 的 ， 这 些 编译 制导 通过 OpenMP 编译 器 和 针对 每 个 硬件 平台 的 运行 时 库 相 结合 ， 
动 转 换 成 并 行 线程 。OpenMP 编译 器 和 运行 时 库 按照 编 译 制导 的 要 求 将 代码 翻译 成 尽 可 能 多 的 
并 行 线程 ,并 将 一 组 循环 迭代 分 配给 线程 上 下 文 。 当 底层 硬件 支持 两 个 线程 上 下 文 时 ， 
OpenMP 运行 库 就 会 产生 2 个 线程 ， 每 个 线程 并 行 执行 总 循环 迭代 数 的 一 半 。 当 硬件 支持 4 个 
线程 上 下 文 时 ,就 自动 产生 4 个 线程 ,每 个 线程 并 行 执行 总 循环 迭代 数 的 四 分 之 一 。 循 环 结 束 
时 ，OpenMP 运行 时 环境 会 自动 插入 一 个 barrier 同步 原 语 ， 每 个 线程 都 在 这 里 等 待 ， 直 到 所 有 
线程 都 完成 各 自 的 循环 迭代 。barrier 同步 后 ， 运 行 时 环境 挂 起 所 有 线程 ， 只 允许 一 个 线程 串 行 
地 执行 循环 后 的 剩余 代码 。 在 应 用 程序 中 指定 的 编译 制导 指令 不 随 硬 件 的 改变 而 改变 ， 运 行 时 
环境 知道 底层 硬件 结构 ， 并 会 自动 创建 足够 的 并 行 线程 数 以 更 高 效 地 利用 硬件 。 

表 8-4 给 出 了 一 个 基于 OpenMP 并 行 的 简单 例子 。 在 表 中 ，#pragma 指令 告诉 OpenMP 运行 
时 环境 ,该 指令 下 面 的 循环 没有 循环 依赖 关系 ， 且 每 次 迭代 可 以 同 其 他 迭代 并 行 执行 。 如 表 中 
所 示 ， 如 果 代 码 执行 在 拥有 两 个 线程 上 下 文 的 系统 上 ， 第 一 个 线程 上 下 文 (CPU 提 ) 执行 从 
0 ~ (n/2 -1) 个 近代 ,第 二 个 线程 上 下 文 执行 循环 迭代 的 下 一 半 ; 如 果 代 码 执行 在 拥有 4 个 线 
程 上 下 文 的 系统 上 ， 运行 时 环境 自动 分 配 四 分 之 一 的 循环 给 每 个 CPU。 


表 8-4 基于 OpenMP 制导 指令 的 自动 并 行 
#pragma OpenMP parallel for(int i=0; i<n; ++i(ali] =6[i] xceli]) 

















TT 0 bn 
在 4 全 可 上下文 中行 a 





OpenMP 库 和 运行 时 环境 是 可 以 分 别 有 不 同 实现 的 ， 下面 描 述 一 个 简单 的 方法 来 说 明 
OpenMP 库 和 运行 时 是 如 何 配 合 实现 并 行 执 行 和 跨 线程 同步 的 。 程序 中 的 并 行 循环 标记 被 简单 
翻译 成 OpenMP 的 库 函 数 调用 ;以 实现 循环 的 并 行 执行 ， 库 函数 在 运行 时 会 先 检测 底层 系统 ， 
以 获得 该 循环 可 用 的 线程 上 下 文 数 ， 之 后 ， 库 函数 尽 可 能 地 创建 与 硬件 线程 上 下 文 数 相同 的 
线程 。 

执行 循环 的 每 个 线程 可 以 看 成 是 一 个 函数 调用 ， 循 环 索引 的 起 始 和 结束 作为 函数 调用 的 输 
入 参数 ， 循 环 索 引 的 起 始 和 结束 值 可 以 根据 线程 上 下 文 数 来 确定 。 然 后 ， 运 行 时 环境 给 每 个 线 
程 提供 了 相同 起 始 地 址 的 函数 调用 ， 但 是 传递 不 同 的 开始 和 结束 循环 索引 作为 函数 调用 参数 。 
当 线程 完成 分 配给 它 的 任务 时 ， 就 返回 到 生成 该 线程 的 OpenMP 库 调 用 ,， 库 函数 中 的 barrier 同 
步 原 语 会 阻止 任何 线程 执行 循环 后 的 指令 。 当 所 有 线程 都 到 达 barrier 同步 点 时 ， 运 行 时 环境 会 
挂 起 所 有 线程 ， 只 保留 一 个 线程 继续 执行 并 行 循 环 后 面 的 指令 。 

OpenMP 提供 了 大 量 的 制导 指令 用 于 声明 一 些 在 并 行 线程 创建 前 需要 在 运行 时 环境 中 检测 
的 条 件 。 比 如 ,上面 的 例子 中 如 果 天 的 值 太 小 ,循环 并 行 化 可 能 并 不 明智 ,因此 用 户 可 以 指定 
n 的 最 小 值 ， 只 有 的 值 比 用 户 指定 的 值 大 时 ， 并 行 才 会 生效 ， 这 项 检查 在 运行 时 进行 提供 
大 量 OpenMP 制导 指令 的 目的 是 将 程序 员 的 负担 转移 到 运行 时 环境 ， 实 现 线程 的 自动 创建 并 正 
确 同 步 。 尽 管 如 此 ，OpenMP 仍然 依赖 于 程序 员 的 经 验 知识 ， 来 指定 代码 中 的 并 行 机 会 以 及 与 
并 行 相关 的 各 种 限制 。 
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8. 5.3 事务 内 存 


OpenMP、Pihread 以 及 其 他 并 行 编程 模型 可 以 帮助 应 用 开发 人 员 快 速 编写 出 并 行 代码 ， 然 
而 ;在 这 些 显 式 的 线程 并 行 方法 中 ， 并 行 代码 开发 的 主要 瓶颈 仍然 是 ,需要 依赖 程序 员 来 确定 
并 行 代码 段 ， 并 使 用 正确 的 同步 原 语 来 管理 线程 间 通 信 。 在 代码 并 行 化 中 ， 确 定 并 行 代码 的 行 
为 并 决定 何 时 使 用 同步 和 互 斥 锁 是 最 为 关键 的 任务 。 当 锁 和 临界 区 出 现 嵌 套 时 ， 还 可 能 发 生 
死 锁 。 

无 论 是 由 编译 器 自动 产生 的 ， 还 是 由 程序 员 手写 生成 的 ， 并 行 代码 的 性 能 都 依赖 于 消除 不 
必要 的 线程 同步 。 当 多 个 线程 想 要 更 新 一 个 共享 数据 结构 时 ， 通 常 需要 使 用 锁 或 barrier 来 对 数 
据 访问 进行 同步 。 两 个 不 同 线程 间 的 数据 结构 共享 有 两 种 类 型 : 真 共享 和 假 共享 。 真 共享 发 生 
在 两 个 线程 修改 / 读 取 数 据 结构 的 相同 字段 ; 假 共 享 发 生 在 两 个 线程 访问 相同 的 数据 结构 ， 但 
修改 / 读 取 的 是 数据 结构 的 不 同 字段 。 如 果 两 个 线程 总 是 访问 数据 结构 的 不 同 字段 ， 那 么 就 没 
必要 对 其 进行 串 行 化 处 理 ， 因 此 保护 数据 结构 的 锁 或 barrier 可 以 删除 。 然 而 ,实际 困难 在 于 ， 
如 何 静 态 (在 程序 编写 或 编译 时 ) 确定 共享 的 数据 类 型 ， 特 别 是 当 线 程 间 共享 数据 会 动态 变 
化 时 就 更 加 困难 了 。 我 们 也 可 以 对 细 粒 度 的 共享 数据 结构 进行 加 锁 ， 而 不 是 对 整个 大 的 共享 数 
据 结构 加 锁 ， 但 细 粒 度 锁 会 导致 锁 的 数量 增多 ， 很 难 跟 踪 记 录 和 管理 ， 并 增加 死 锁 发 生 的 几 
率 。 除 了 假 共享 和 死 锁 问题 ， 在 线程 可 以 被 中 断 和 抢占 的 环境 下 ， 基 于 锁 的 同步 还 会 引发 其 他 
严重 的 问题 。 如 果 革 个 线程 持 有 锁 或 者 是 barrier 同步 协议 的 一 部 分 ， 并且 被 抢占 ( 比如， 由 于 
缺 页 异常 ) 调度 出 去 ， 则 所 有 参与 了 相同 计算 的 其 他 线程 也 都 会 被 锁定 ， 并 可 能 面临 极其 长 时 
间 的 延迟 。 

锁定 整个 数据 结构 是 确保 线程 正确 通信 的 一 种 极端 方法 。 比 如 ， 有 一 个 上 千 节 点 的 图 结 
构 ， 可 以 通过 若干 线程 进行 并 行 搜索 和 修改 ， 修 改 可 能 是 对 某 个 节点 上 下 文 的 更 新 ， 或 者 是 删 
除 /添加 节点 。 在 这 种 情况 下 ， 任 何 节点 都 可 能 被 两 个 线程 共享 读 / 写 ,但 同时 发 生 的 几率 又 非 
常 小 。 不 过 为 了 确保 不 会 出 现 竞争 情况 ， 程 序 员 必须 锁 住 整个 图 、 一 部 分 图 或 者 是 图 中 的 每 一 
个 节点 ， 然 而 在 大 多 数 时 间 里 ， 这 种 串 行 化 和 加 锁 行为 都 是 没 必要 的 。 

基于 锁 的 动态 数据 结构 共享 ”图 8-15 所 示 的 简单 代码 片段 说 明了 使 用 锁 来 优化 线 
程 同 步 所 面临 的 困难 。 在 这 个 例子 中 ,生产 者 和 消费 者 线程 之 间 的 共享 数据 随 着 condl 和 
cond2 的 变化 而 产生 变化 ， 如 果 condl 和 cond2 都 为 真 , 或 者 都 为 假 ， 则 两 个 线程 修改 同一 个 数 
据 项 ， 此 时 临界 区 是 必要 的 。 然 而 ， 如 果 condl 为 真 ，cond2 为 假 ( 反 之 亦 然 ) ， 则 两 个 线程 更 
新 的 是 不 同 的 数据 项 ， 此 时 临界 区 就 没有 必要 。 由 于 condl 和 eond2 的 值 在 编译 时 无 法 确定 ， 
并 可 能 动态 改变 ; 程序 员 必须 决定 最 佳 的 加 锁 粒 度 ， 因 此 ,程序 员 可 能 倾向 于 在 临界 区 内 执行 
生产 者 和 消费 者 的 功能 ， 从 而 避免 在 细 粒 度 共享 情况 下 使 程序 分 析 和 调试 更 加 复杂 。 图 8-15a 


中 就 是 这 人 么 做 的 ， 这 种 方式 本 质 上 是 在 所 有 情况 下 把 代码 串 行 化 了 。 如 果 condl 和 cond2 都 为 、 


真 或 都 为 假 的 情况 很 少 发 生 ， 那 么 这 种 串 行 化 在 大 部 分 时 间 里 是 没有 必要 的 ， 也 导致 了 大 量 的 
TLP 被 浪费 掉 。 对 

基于 事务 的 编程 

事务 内 存 (Transactional Memory,， TM) 也 是 一 种 并 行 编程 模型 ， 它 可 以 消除 程序 员 选 择 最 
佳 锁 粒度 的 负担 ， 也 可 以 消除 加 锁 和 执行 互 斥 的 开销 。 事 务 内 存 通过 支持 无 锁 数 据 结构 来 增强 
并 行程 序 的 可 编程 性 和 性 能 ， 这 是 一 个 乐观 的 实现 方法 ， 它 假定 共享 对 象 的 数据 项 很 少 会 出 现 
并 行 读 写 ， 因 此 代码 对 它们 的 访问 可 以 在 不 锁定 的 情况 下 执行 。 在 执行 过 程 中 ， 当 检测 到 同时 
读 / 写 相 同 数据 结构 的 相同 数据 项 这 样 的 罕见 事件 发 生 时 〈 即 检测 到 竞争 条 件 ) ， 某 些 执行 过 
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struct Sharedt{ struct Shared{ 


int itemil; int iteml; 

int item2; int item2; 

} myShared; } myShared; 

Producer (){ Producer (){ 

Lock (1); ] Transaction Begin 

if (condl) if (condl) 
myShared.iteml++; myShared.iteml++; 

else else 
myShared.item2++; myShared.item2++; 

Unlock (1); Transaction End 

} } 

Consumer () 1{ Consumer ()1 

Lock (1); Transaction Begin 

if((cond2) gg& (myShared.iteml>0)) if((cond2)&& (myShared.iteml>0)) 
myShared.iteml—; myShared.iteml—; 

if((!cond2)&& (myShared.item2>0)) if((!cond2) &g& (myShared.item2>0)) 
myShared.item2—; myShared.item2—; 

Unlock (1); Transaction End 

} } 

a) b ) 


图 8-15 基于 锁 (a) 或 事务 〈(b) 的 数据 结构 动态 共享 的 例子 


程 就 会 进行 回 深 。 基 于 TM 的 一 个 简单 实现 中 ,应 用 程序 可 以 像 常规 代码 一 样 来 实现 复杂 的 同 
步 协议 ， 它 只 需要 将 协议 代码 包含 在 一 个 事务 里 ， 而 无 需 显 式 的 同步 。 与 临界 区 机 制 相反 ， 不 
同 的 事务 之 间 只 要 不 存在 读 / 写 竞争 就 可 以 并 发 执行 ， 对 读 / 写 竞争 的 检测 是 由 硬件 自动 完成 
的 ， 如 果 动 态 检测 到 竞争 ， 那 么 同步 相关 的 代码 将 自动 重新 执行 。 

当 事 务 回 滚 的 可 能 性 很 低 时 ， 事 务 内 存 机 制 就 非常 高 效 。 前 文中 描述 的 多 个 线程 对 大 规 
模 图 的 搜索 和 修改 就 是 一 个 很 好 的 例子 。 相 比 之 下 ， 数 值 应 用 中 通常 使 用 barrier 进行 同步 
(参见 第 7 章 中 的 图 7-2) ， 这 种 应 用 出 现 回 滚 的 概率 很 高 ， 因 此 ， 对 事务 内 存 机 制 来 说 ,， 数 
值 应 用 可 能 并 不 是 一 个 好 的 选择 。 相 比 于 基于 锁 的 基本 共享 内 存 编程 方法 ,，TM 具有 更 好 的 
编程 性 ， 这 是 因为 并 行程 序 员 只 需要 确定 每 个 线程 中 的 事务 边界 ， 而 不 需要 去 考虑 复杂 锁 
方案 的 正确 性 。 在 TM 编程 中 ， 主 要 关注 的 是 ， 需 要 尽 可 能 创建 比较 小 的 事务 ， 从 而 最 小 化 
回 滚 的 可 能 性 以 及 每 次 回 滚 时 需要 重新 执行 的 次 数 。 当 然 ， 也 可 以 将 整个 线程 放 在 一 个 事 
务 中 ， 这 在 实现 起 来 非常 简单 ， 但 是 回 滚 线程 整个 执行 过 程 的 可 能 性 也 会 非常 高 。TM 的 另 
一 个 问题 是 ， 不 能 进行 回 滚 的 动作 〈 如 对 物理 设备 的 访问 ) 不 能 包含 在 事务 中 。 因 此 ， 任 
何 0 操作 都 不 能 包含 在 事务 中 。 通 常情 况 下 ， 线 程 产 生 的 效果 中 ， 唯 一 可 以 进行 回 滚 的 就 
是 对 内 存 的 修改 。 

TM 的 概念 是 从 数据 库 事务 中 借鉴 而 来 的 。 在 数据 库 中 ， 事 务 是 一 系列 作为 原子 块 执行 的 
指令 ， 也 就 是 说 ， 事 务 中 所 有 指令 以 原子 块 的 形式 进行 提交 或 中 止 ， 事 务 不 能 拆 开 执行 ,在 任 
何 情况 下 事务 未 能 成 功 完成 时 ,都 必须 重新 执行 。 除 了 原子 性 ,事务 的 第 二 个 必要 属性 是 隔离 
性 ， 隔 离 性 可 以 防止 其 他 事务 在 该 事务 提交 之 前 就 观察 到 其 行为 ， 隔 离 性 常 被 理解 为 原子 性 的 
一 部 分 。 最 后 ， 事 务必 须 是 可 串 行 化 的 ， 即 已 提交 事务 的 结果 必须 按 线程 提交 顺序 对 其 他 线程 
可 见 。 

原子 性 意味 着 事务 可 以 对 共享 内 存 做 一 些 读 / 写 操 作 ， 并 且 所 修改 的 值 对 其 他 事务 暂时 不 
可 见 ， 当 事务 提交 时 ， 存 储 上 的 更 新 对 其 他 所 有 线程 都 变 得 可 见 ， 就 好 像 所 有 的 这 些 修 改 是 立 
即 完成 的 。 如 果 事 务 中 止 ， 则 所 有 改变 对 任何 其 他 线程 都 不 可 见 ， 如 果 线 程 在 事务 处 理 中 被 抢 
占 ， 首 先 会 中 止 该 事务 ， 从 而 使 其 他 线程 可 以 访问 到 共享 变量 。 
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基于 事务 的 动态 数据 结构 共享 ”图 8-15b 中 的 代码 与 图 8-15a 中 的 代码 功能 相同 ， 
但 是 用 事务 机 制 代替 了 锁 。transaction_begin 语句 表示 事务 开始 ， 它 意味 着 本 地 处 理 器 必须 开始 
监控 对 存储 的 访问 ， 直 到 碰 到 transaction_end， 再 对 事务 的 隔离 性 进行 验证 。 如 果 没 有 违反 隔 
离 性 ， 则 事务 在 transaction_end 处 提交 ， 并 且 事 务 内 的 store 内 容 对 所 有 线程 可 见 ， 而 如 果 违 反 
了 隔离 性 ， 则 事务 必须 中 止 、 回 滚 ， 并 重新 执行 。 当 两 个 线程 的 大 部 分 时 间 都 用 于 更 新 共享 变 
量 myShared 的 不 同 数据 项 时 ， 事 务 代 码 比 传统 基于 锁 的 代码 更 高 效 ， 这 是 因为 事务 代码 无 需 
串 行 化 ， 无 需 执行 全 局 同步 (acquire 或 release) ， 并 且 线 程 很 少 对 事务 进行 回 滚 。 4 
事务 内 存 机 制 
除了 回 滚 和 重启 事务 的 能 力 ， 在 所 有 TM 架构 中 ， 还 必须 具备 三 个 基本 机 制 来 对 原子 性 和 
隔离 性 进行 检查 和 维护 。 
。 事务 冲突 检测 机 制 。 当 两 个 或 更 多 事务 访问 相同 的 存储 单元 ， 且 至 少 有 一 个 访问 是 
store 操作 时 (如 果 只 有 load 操作 则 无 需 考 虑 ) ， 将 会 检测 到 事务 之 间 的 冲突 ， 这 违反 
了 隔离 性 。 

。 推测 性 内 存 数据 管理 机 制 。 未 提交 事务 中 的 store 推测 值 必须 与 已 提交 的 store 值 (来 自 
已 提交 事务 ) 分 开 ， 事务 内 存 系统 的 这 一 功能 通常 称 为 版 本 管理 。 

。 并 发 控制 机 制 。 当 检测 到 事务 冲突 时 ， 该 机 制 用 于 决定 哪些 事务 需要 中 止 ， 哪 些 事 务 
可 以 提交 。 

从 开始 到 提交 ， 事 务必 须 在 本 地 记录 其 读 集合 ( 即 已 加 载 的 地 址 ) 和 写 集合 ( 即 已 修改 
的 地 址 ) ， 以 此 来 检测 事务 冲突 。 为 了 确保 事务 的 隔离 性 : (1) 其 他 事务 不 能 对 写 集合 中 的 地 
址 进行 读 或 写 操作 ; (2) 其 他 事务 不 能 对 读 集合 中 的 地 址 进行 写 操作 ， 和 否则 ， 必 须 中 止 其 中 
的 一 个 事务 。 

通常 情况 下 ， 冲 突 检 测 和 版 本 管理 可 能 包含 两 种 实现 方式 : 积极 方式 或 懒惰 方式 。 如 果 事 
务 冲 突 一 发 生 就 能 检测 到 ， 则 这 种 冲突 检测 是 积极 的 ; 如 果 在 事务 冲突 发 生 之 后 才 被 检测 到 ， 
则 是 懒惰 的 ， 最 晚 的 可 能 检测 时 间 是 事务 提交 的 时 间 。 如 果 在 事务 开始 时 ， 初 始 的 有 效 值 先 被 
保存 在 其 他 位 置 的 内 存 中 ， 而 新 产生 、 非 提交 的 值 被 直接 存储 到 内 存 中 ， 则 是 积极 的 版 本 管理 
方式 ; 如 果 非 提交 的 值 被 先 存储 在 缓冲 区 中 ,事务 提交 时 ， 才 被 写 人 内 存 中 ， 则 是 懒惰 的 版 本 
管理 方式 。 一 般 情况 下 ,积极 的 冲突 检测 和 版 本 更 新 策略 更 有 优势 。 通 过 积极 的 冲突 检测 ， 事 
务 中 止 和 回 滚 可 以 尽早 执行 ， 从 而 避免 更 多 无 用 的 工作 。 通 过 积极 的 版 本 更 新 ， 可 以 加 快 提交 
速度 《因为 所 有 新 值 早 已 在 内 存 中 ， 而 保存 了 初始 值 的 缓冲 区 只 需要 简单 清空 即 可 ) ， 但 是 中 
止 速度 会 变 慢 (因为 内 存 值 必须 从 缓冲 区 中 进行 恢复 )。 懒 惰 的 冲突 检测 和 版 本 管理 方式 的 效 
果 则 正好 相反 。 通 常情 况 下 ， 我 们 希望 提交 比 中 止 更 加 频繁 ， 因 此 积极 的 版 本 管理 方式 通常 更 
为 理想 。 

按照 TM 机制 的 实现 方式 方式 ，TM 系统 可 以 分 为 硬件 事务 内 存 (HTM) 和 软件 事务 内 存 、 
(STM) ， 而 混合 事务 内 存 系统 则 同时 利用 了 硬件 和 软件 来 实现 事务 内 存 的 目标 ， 下 面 主要 讲述 
硬件 事务 内 存 。 

事务 内 存 系统 的 基本 硬件 结构 

为 了 简单 起 见 ， 不 考虑 嵌 套 事务 ， 只 专注 于 事务 中 那些 访问 共享 内 存 的 地 址 集合 。 通 常情 
况 下 ， 事 务 外 的 访 存 地 址 采用 与 非 事务 性 系统 相同 的 处 理 方式 。 

我 们 在 ISA 中 增加 两 条 新 指令 来 开始 和 结束 事务 ， 这 两 个 指令 的 操作 码 分 别 为 TBegin 和 
TEnd。TBegin 指令 执行 的 效果 是 将 处 理 器 切换 到 事务 状态 ， 当 执行 到 TEnd 指令 时 ， 处 理 器 又 
切换 回 非 事务 状态 ， 这 两 条 指令 对 处 理 器 中 的 状态 位 进行 置 位 和 重 置 ， 从 而 记录 处 理 器 是 否 正 
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在 执行 事务 ， 该 状态 位 称 为 transaction_active 位 。 
当 事 务 开始 时 ， 正 在 运行 的 线程 状态 必须 设置 好 检查 点 (checkpoint) ， 此 时 记录 的 状态 包 
括 寄 存 器 和 内 存 。 由 于 寄存 器 的 值 是 每 个 线程 私有 的 ， 因 此 检查 点 的 实现 比较 简单 。 例 如 ,可 
以 设置 一 个 影子 寄存 器 文件 来 保存 寄存 器 的 检查 点 ， 当 TBegin 执行 时 ， 影 子 寄存 器 文件 中 的 
所 有 项 都 是 无 效 的 。 在 事务 中 ,新 的 寄存 器 值 被 存储 到 影子 寄存 器 文件 中 ， 读 寄存 器 时 先 在 影 
子 寄存 器 中 查找 寄存 器 的 值 ， 如 果 影 子 寄 存 器 中 对 应 项 是 无 效 的 ， 则 从 主 寄存 器 文件 中 取 值 ， 
如 果 事 务 在 TEnd 处 成 功 提交 ， 则 影子 寄存 器 中 的 有 效 值 被 复制 到 常规 的 主 寄存 器 文件 中 6 
“” ”和 和 寄存 器 值 的 保存 不 同 ， 如 果 要 对 线程 的 内 存 状 态 进行 检查 点 保存 ， 那 么 难度 就 大 得 多 ， 
这 是 因为 内 存 值 可 能 被 其 他 线程 共享 。 下 面 给 出 一 个 简单 的 基于 事务 cache 状态 的 机 制 ; 简 而 
言 之 ， 当 事务 中 的 内 存 块 第 一 次 更 新 时 ， 内 存 系统 中 必须 维护 该 数据 块 的 两 个 副本 : 在 第 一 次 
store 执行 之 前 的 数据 块 副本 (已 经 提交 的 值 ) ， 以 及 新 的 包含 未 提交 store 值 的 数据 块 副本 。 处 
理 器 核 的 Ll cache 可 以 保存 新 的 未 提交 数据 块 副本 ; 下 一 级 存储 (共享 12 cache 或 者 内 存 ) 可 
以 保存 在 事务 开始 时 有 效 且 已 提交 数据 块 副 本 。 下 面 的 cache 协议 是 一 个 简单 的 基于 总 线 侦 听 
的 MSI- 无 效 协议 ,该 协议 中 存储 块 状态 包含 如 下 几 个 状态 Modified ( 单 副 本 ， 内 存 值 是 旧 
的 ， 支 持 读 / 写 访问 ) ，Shared (一 个 或 多 个 副本 ， 内 存 值 是 最 新 的 ， 支 持 只 读 访问 ) ，Invalid 
(数据 不 在 cache 中 ) 。 有 关 该 协议 的 更 多 细节 请 参见 第 7 章 。 
Ll cache 中 的 数据 块 可 能 处 于 两 种 状态 : 正常 状态 或 事务 状态 。 正 常数 据 块 包含 已 提交 的 
值 ， 而 事务 数据 块 包含 的 是 数据 块 的 新 版 本 。 如 果 当 前 事务 成 功 提 交 ， 则 新 版 本 数据 会 代替 旧 
的 已 提交 值 ， 如 果 当 前 事务 被 中 止 ， 则 新 版 本 数据 块 将 被 丢弃 。 正 常 块 和 事务 块 的 主要 区 别 
是 ， 事 务 块 中 的 值 在 事务 提交 之 前 对 其 他 线程 不 可 见 。 任 何 时 候 ， 同 一 内 存 块 只 能 有 一 个 副本 
保存 在 cache 中 。 
在 事务 机 制 中 ， 所 有 的 load 和 store 都 被 视 为 特殊 的 TM 访问 指令 。 事 务 中 第 一 次 对 内 存 块 
进行 store 操作 时 ， 该 内 存 块 的 当前 副本 必须 进行 检查 点 保存 ， 并 创建 一 个 新 的 事务 副本 ， 此 
时 需 考 虑 以 下 两 种 情况 ; 
。 该 内 存 块 不 在 Ll cache 中 。 在 这 种 情况 下 ，cache 必须 首先 获取 内 存 块 的 一 个 Modified 
的 副本 ， 且 对 内 存 或 L2 cache 进行 更 新 。 然 后 ， 在 事务 状态 下 ,该 Modified 副本 装载 
到 cache 中 ， 共 享 [2 或 内 存 中 的 副本 作为 检查 点 副本 。 

。 该 内 存 块 在 Ll cache 中 。 如 果 是 Modified 的 副本 ,必须 首先 将 它 写 回 (检查 点 副本 ); 
如 果 是 Shared 的 副本 ， 则 不 需要 写 回 ， 因 为 下 一 级 存储 中 的 副本 也 是 最 新 的 。 然 后 ， 
在 事务 状态 下 ， 获 取 Modified 的 副本 并 加 载 到 LI cache 中 。 

在 事务 执行 过 程 中 ， 第 一 次 store 之 后 的 所 有 其 他 store 都 会 对 本 地 Ll cache 中 的 事务 副本 
进行 更 新 。 在 该 事务 的 剩余 执行 过 程 中 ， 该 内 存 块 必须 一 直 在 cache 中 并 处 于 事务 状态 。 当 事 
务 中 执行 一 个 对 普通 内 存 块 的 load 操作 时 ;LI1 cache 中 对 应 的 cache 行 会 标记 为 read (通过 设 
置 和 每 个 cache 行 关 联 的 transaction_read 位 ) ， 此 后 该 内 存 块 必须 始终 保留 在 cache 中 ; 直到 事 
务 结束 。 

事务 中 的 写 集合 通过 事务 块 副 本 来 维护 ， 事 务 中 的 读 集合 则 通过 transaction_read 位 来 维 
护 ， 这 些 都 在 本 地 LI cache 中 实现 。 冲 突 检测 使 用 事务 状态 位 和 transaction_read 位 ， 多 个 线程 
间 的 冲突 检测 通过 cache 一 致 性 协议 来 实现 ,为 了 支持 TM，MSI- 无 效 协议 在 以 下 几 个 方面 进行 
了 修改 : 对 正常 内 存 块 或 事务 外 部 处 理 器 的 cache 发 起 的 总 线 请 求 按 常规 的 MSI- 无 效 协议 进行 
处 理 ; 当 处 理 器 在 事务 内 部 时 ' (通过 transaction_active 位 标记 )， 并 且 收 到 一 个 针对 事务 块 的 
BusRd 或 BusRdX 请 求 时 ， 则 检测 到 冲突 ; 此 外 ， 如 果 收 到 的 请 求 是 BusRdX，cache 副本 块 是 
正常 状态 且 transaction_read 位 为 1， 则 也 说 明 检 测 到 冲突 。 当 检测 到 冲突 时 ，cache 向 请 求 者 发 
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送 一 个 busy 响应 ， 该 响应 用 来 确保 事务 的 隔离 性 。 当 发 出 请 求 的 处 理 器 收 到 busy 响应 时 ， 必 
须 过 段 时 间 再 重新 发 起 请 求 ， 如 果 发 起 请 求 的 线程 自身 也 正在 执行 事务 ， 则 比较 明智 的 选择 是 
中 止 当 前 事务 并 回 滚 而 不 是 继续 忙 等 ， 从 而 避免 事务 间 出 现 死 锁 。 如 果 发 起 请 求 的 线程 在 事 
务 外 部 ， 则 该 线程 会 被 挂 起 ， 直 到 远程 事务 提交 之 后 ， 再 进行 重 试 。 

一 旦 事务 被 中 止 或 提交 ， 所 有 Ll cache 行 中 的 transaction_active 位 和 transaction_read 位 都 将 
被 复位 。 如 果 事 务 中 止 ，L1 cache 中 的 所 有 事务 项 都 将 被 丢弃 (通过 快速 重 置 相 应 Valid 位 )， 此 
外 ， 影子 寄存 器 的 内 容 也 将 丢弃 。 另 一 方面 ， 如 果 事 务 成 功 提交 ， 则 影子 寄存 器 的 内 容 将 转移 到 
主 寄存 器 ，Ll cache 中 的 所 有 事务 块 也 将 切换 到 正常 状态 (通过 快速 重 置 所 有 的 事务 位 ) 。 需 要 
特别 注意 的 是 ,， 当 事务 提交 时 ， 整 个 提交 操作 必须 满足 原子 性 ， 也 即 整 个 状态 切换 需要 原子 完成 
( 即 快速 复位 cache 中 所 有 cache 行 的 事务 位 ， 或 当 事 务 块 顺序 切换 至 正常 状态 时 ， 不 对 其 他 的 任 
何 一 致 性 请 求 做 应 答 )。 要 做 到 这 一 点 ， 整 个 事务 中 ，cache 中 的 所 有 事务 块 必须 保持 在 Modified 
状态 ， 这 样 事务 提交 操作 仍旧 是 本 地 操作 ， 不 需要 与 全 局 存储 系统 进行 交互 。 

事务 cache 

当前 ， 我 们 常常 会 忽视 由 于 cache 容量 限制 和 cache 映射 冲突 导致 的 cache 替换 ， 因 此 ， 随 
着 事务 中 store 数量 的 不 断 增加 ， 在 某 些 cache 组 (set) 中 最 终 会 出 现 溢出 。 当 cache 中 某 一 组 
的 所 有 cache 行 都 被 事务 块 或 设置 了 transaction_read 位 的 正常 块 占 用 时 ， 就 发 生 了 溢出 ， 此 时 
对 应 cache 组 中 会 发 生 失 效 。 为 了 缓解 这 一 问题 ， 事 务 块 可 以 分 配 到 独立 于 主 cache 的 全 相 联 
cache 中 ， 这 种 方法 将 事务 块 的 维护 与 主 cache 的 管理 分 离开 来 ， 可 以 并 行 地 访问 主 cache 和 事 
务 cache。 这 两 个 cache 是 互 斥 的 ， 因 此 内 存 块 副本 不 能 同时 存在 于 这 两 个 cache 中 。 当 事务 提 
交 时 ， 事 务 cache 中 的 所 有 块 都 变 为 正常 块 ， 因 此 ， 事 务 cache 中 包含 无 效 块 、 正 常 块 和 事务 
块 ， 当 需要 分 配 新 的 事务 块 时 ， 事务 cache 中 的 无 效 块 或 正常 块 被 替换 出 去 ， 以 便 为 新 的 事务 
块 提 供 空 间 。 

一 旦 全 相 联 事务 cache 用 完了 所 有 的 无 效 块 或 正常 块 ， 事务 将 无 法 继续 执行 下 去 ， 在 这 种 
情况 下 ， 必 须 有 一 个 能 支持 事务 完成 的 供 备 选 的 原子 执行 机 制 。 通 常 ， 事 务 cache 还 可 能 在 内 
存 (物理 内 存 ) ， 甚 至 是 线程 的 虚拟 存储 空间 内 发 生 溢出 。 上 述 方法 对 短 事务 比较 有 效 ， 而 对 
于 长 事务 则 软件 开销 可 能 很 大 。 需 要 注意 的 是 ,溢出 问题 也 同样 存在 于 设置 了 transaction_read 
位 的 cache 块 中 (内 存 和 事务 cache 中 的 数据 块 都 是 这 样 ) 。 不 过 ， 在 这 种 情况 下 ，cache 只 需 
要 跟踪 记录 哪些 块 地 址 被 读 过 了 ， 而 不 需要 记录 这 些 数据 块 的 实际 内 容 。 

事务 内 存 提 交 和 中 止 示例 ”图 8-16 和 图 8-17 说 明了 TM 系统 是 如 何 工作 的 。 在 本 
例 中 ， 再 次 使 用 图 8-15a 中 的 程序 ， 程序 中 使 用 了 TM 语法 来 描述 生产 者 和 消费 者 的 功能 。 
8-16 给 出 了 CMP 中 的 两 个 处 理 器 核 : Core0 和 Corel ， 它 们 分 别 运 行 生产 者 和 消费 者 的 代 
码 ， 每 个 处 理 器 核 都 有 一 个 私有 的 Ll cache， 每 个 cache 行 都 增加 了 额外 的 位 : XactMod (事务 
位 ) 和 XactRead (transaction_read 位 )。 9 

首先 ,假定 生产 者 中 的 cond1 为 真 ， 而 消费 者 中 的 cond2 为 假 ， 因 此 生产 者 和 消费 者 工作 
在 不 同 的 数据 项 上 (分 别 是 iteml 和 item2)。 在 图 8-15b 中 ， 当 两 个 处 理 器 核 都 执行 transaction_ 
begin 时 ， 处 理 器 核 中 的 XactActive 位 (transaction_active 位 ) 被 置 位 。 然 后 ， 两 个 处 理 器 核 分 
别 读 取 变量 condl 和 cond2，, 假定 对 这 两 个 变量 的 访问 都 在 各 自 的 本 地 cache 中 命中 ， 并 且 都 处 
于 Shared 状态 (因此 [2 cache 中 包含 condl 和 cond2 的 最 新 副本 )。Core0 将 包含 condl 的 cache 
行 的 XactRead 置 位 ， 同 样 ，Corel 将 包含 cond2 的 cache 行 的 XactRead 置 位 ， 通 过 设置 Xac- 
tRead 位 ， 每 个 处 理 器 核 跟 踪 记 录 了 当前 活跃 事务 所 读 取 的 cache 行 。 接 下 来 ，Core0 执行 语句 
“myShared. iteml ++ ”， 这 个 语句 先 读 取 myShared. iteml 变量 ， 然 后 再 对 其 进行 修改 。 首 先 ， 
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置 位 为 1。 












rE myShared.item1 - - 
站 myShared.item2 加 


a ) 执行 中 的 事务 


核 Core0 事务 提交 核 Core1 事 务 提 交 


us 
acvod| xaapead| | peouarsdaa 
| 
-回回 
E 










i | EE | myShared.item2 | item2 
1 | 


b ) 提交 时 的 机 器 状态 
图 8-16 事务 提交 
Core0 为 包含 iteml 的 数据 块 发 送 BusRd 请 求 ， 一 旦 数据 块 副 本 加 载 到 cache 中 ， 就 将 XactRead 


Core0 修改 myShared. iteml 之 前 ， 先 为 其 对 应 数据 块 发 送 一 个 BusRdx 请 求 ，Corel 按 


照 一 致 性 协议 对 其 进行 响应 ， 如 果 Corel 有 共享 副本 ， 那么 只 需要 简单 将 该 副本 无 效 掉 即 可 ， 
此 后 Core0 就 可 以 自由 更 新 iteml 了 。 需 要 注意 的 是 ， 只 有 当 Core0 的 活跃 事务 提交 时 ， 该 修改 
才 对 其 他 核 可 见 ， 如 果 Core0 的 活路 事务 中 止 ， 则 必须 取消 该 更 新 操作 ,除了 置 M 位 外 ， 
Core0 还 需要 置 XactMod 位 ， 以 表明 此 cache 行 已 经 在 事务 内 部 进行 了 修改 。 
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de 
|| i 
L2$ 
a ) 执行 中 的 事务 
处 理 器 事务 中 止 

| 

b ) 中 止 时 的 机 器 状态 

图 8-17 事务 中 止 

执行 “myShared. item2 - ”了 时，Corel 依次 将 对 item2 将 BusRd 和 BusRdX 请 求 发 送 到 总 


线 土 ,整个 执行 过 程 和 上 面 Core0 的 执行 过 程 相同 。 在 这 一 过 程 中 ，Corel 将 对 其 cache 行 的 
XactRead 和 XactMod 位 进行 置 位 ;此 外 ,也 将 cache 行 的 M 位 置 位 ， 这 表明 该 数据 块 处 于 
Modified 状 态 ， 且 在 事务 内 已 经 进行 过 本 地 的 读 写 操作 ， 图 8-16a 给 出 了 此 时 的 机 器 状态 。 需 
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要 注意 的 是 ， 此 时 的 L2 已 经 存储 了 iteml 和 item2 的 副本 ,而且 都 是 事务 开始 前 这 些 值 的 检查 
点 版 本 。 此 时 Ll cache 中 包含 最 新 的 副本 ,但 仍 是 推测 值 ， 因 为 其 对 应 的 XactRead 和 XXactMod 
都 被 置 位 了 。 目 前 情况 下 ， 当 condl = true 且 cond2 = false 时 ， 两 个 事务 并 不 冲突 ， 因 此 Core0 
和 Corel 继续 执行 transaction_commit， 此 时 ， 两 个 Ll cache 中 的 XactRead 位 都 被 重 置 为 0。 此 
外 ， 两 个 处 理 器 核 都 将 XactMod 重 置 为 0， 并 将 M 位 置 为 1， 以 表明 iteml 和 item2 的 最 新 值 在 
Ll cache 中 是 1L2 cache 中 的 副本 是 旧 值 ， 之 后 ，Core0 和 Corel 将 其 XactActive 位 进行 重 置 ， 以 
表明 退出 事务 模式 ， 事务 提交 后 的 机 器 状态 如 图 8-16b 所 示 。 

下 面 我 们 再 考虑 condl 和 cond2 都 为 真 的 情况 ， 具 体 情况 如 图 8-17a 所 示 。 假 定 Core0 是 第 
一 个 进入 事务 并 执行 iteml 递增 操作 的 处 理 器 核 ， 正 如 我 们 之 前 解释 过 的 ，Core0 的 Ll cache 的 
状态 如 图 8-16a 所 示 。Corel 紧 随 Core0 之 后 运行 ， 最 终 也 需要 对 iteml 进行 递减 。 Corel 随后 先 
发 出 一 个 BusRd， 就 像 之 前 介绍 的 那样 ,但 主要 区 别 在 于 这 里 只 对 iteml 发 出 BusRd 请 求 ， 而 
不 包括 item2。 当 Core0 收 到 BusRd 时 ,通过 查看 XactMod 位 的 记录 ，Core0 知道 另 一 个 处 理 器 
核 正 试图 读 取 一 个 被 自己 修改 过 的 数据 项 ， 这 也 是 MSI 协议 中 正常 操作 和 事务 操作 的 不 同 之 
处 。 此 后 Core0 只 发 送 一 个 XBusy 信号 给 Corel ， 而 没有 发 送 最 新 版 本 的 iteml ， 如 图 8-17b 所 
示 。 一 旦 Corel 收 到 XBusy 信和 号， 就 意味 着 必须 有 一 个 事务 中 止 。 在 这 个 例子 中 ， 收 到 XBusy 
信号 的 处 理 器 核 会 中 止 其 事务 ， 因 此 ，Corel 会 重 置 所 有 的 XactRead 位 ， 并 通过 设置 XactMod 
位 无 效 掉 所 有 的 ,cache 行 。 请 记 住所 有 被 无 效 掉 的 数据 块 所 对 应 的 检查 点 版 本 都 在 L2 中 ， 对 这 
些 数据 块 的 最 近 更 新 都 在 Core0 中 用 XactMod 状态 做 了 标记 ， 然 后 ，Corel 重 置 其 XactActive 
位 ， 稍 后 再 重 试 执行 该 事务 。 4 


8. 5. 4 线程 级 推测 执行 


软件 代码 的 并 行 化 要 求 应 用 开发 人 员 使 用 编译 制导 来 标记 代码 或 者 用 诸如 Pthread 这 样 的 
线程 包 来 显 式 地 编写 并 行 代码 。 事 务 内 存 也 是 一 个 类 似 于 Pthread 或 OpenMP 的 并 行 编程 模型 ， 
其 优点 在 于 ,. 非 数值 应 用 中 的 复杂 线程 间 通 信 模 式 可 以 用 事务 来 实现 ， 而 不 需要 使 用 锁 ， 这 在 
大 部 分 情况 下 能 够 改进 编程 性 并 提高 性 能 。 然 而 ， 即 使 在 TM 的 支持 下 ， 也 还 是 需要 程序 员 来 
识别 线程 并 正确 地 设置 事务 边界 。 显 式 并 行 是 目前 提取 线程 级 并 行 (TLP) 的 最 有 效 方法 ,但 
事实 上 也 是 最 复杂 的 。 应 用 并 行 化 会 因为 数据 竞争 〈 对 相同 数据 进行 并 发 读 / 写 操作 ) 而 引入 
一 些 难以 察觉 的 错误 ， 这 在 调试 器 中 通常 很 难 重 现 。 要 实现 并 行 化 ， 即 使 已 经 有 串 行 源 代码 
了 ， 也 需要 对 其 进行 重新 编码 。 

线程 级 推测 执行 (Thread-Level Speculation，TLS) 是 一 项 用 于 串 行程 序 自动 并 行 化 的 技 
术 ,， 借助 于 TLS， 程 序 员 不 需要 做 太 多 的 工作 就 能 完成 并 行 化 。 由 于 并 行 是 自动 执行 的 ， 并行 
代码 的 正确 性 可 以 通过 软件 (编译 器 和 和 运行 时 系统 ) 和 硬件 的 结合 来 保障 。 尽 管 TLS 和 TM 都 
使 用 了 类 似 的 硬件 机 制 , 但 是 两 者 完全 是 针对 不 同 目标 的 不 同方 法 。 在 TLS 中 ,程序 员 所 需要 
做 的 所 有 事情 就 是 识别 出 程序 的 特定 区 域 ， 如 循环 、 其 套子 程序 或 者 递归 函数 调用 , 这些 区 域 
占据 了 串 行程 序 执行 时 间 的 大 部 分 ， 我 们 将 其 作为 推测 并 行 执行 的 候选 。 在 找 出 这 些 区 域 后 ， 
剩余 的 工作 由 TLS 软件 和 硬件 来 完成 。 

在 常规 串 行 代码 中 ，TLP 的 主要 来 源 是 暴 套 的 子 程序 、 递 归 的 函数 调用 以 及 循环 。 子 程序 
和 函数 调用 通常 较 难 并 行 ， 因 为 子 程序 或 函数 调用 通常 需要 返回 值 给 调用 者 ;如 果 调 用 者 在 为 
子 程序 创建 一 个 线程 后 ， 立 即 推测 执行 ， 则 它 需 要 预测 子 程序 的 返回 值 ， 或 当 到 达 需 要 子 程序 
输出 值 的 位 置 时 就 停止 执行 。 因 此 ， 利 用 柑 套 子 程序 或 递归 函数 调用 来 实现 并 行 比 利 用 循环 迭 
代 要 困难 很 多 ， 这 也 是 传统 的 并 行 编译 器 专注 于 循环 的 原因 。 
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循环 并 行 化 

一 般 情况 下 ,循环 迭代 的 并 行 化 主要 受到 一 些 循环 间 数 据 依赖 (loop-carried data dependen- 
cy) 的 影响 ,而 其 他 的 相关 处 理 则 比较 容易 。 由 假 相关 或 命名 相关 导致 的 数据 冲突 可 以 通过 重 
命名 来 解决 ， 而 循环 内 的 相关 可 以 在 每 个 线程 内 部 解决 。 图 8-18 给 出 了 3 个 循环 片段 ， 每 个 
循环 分 别 包 含 一 些 以 不 同方 式 影 响 其 并 行 化 的 语句 ， 在 图 8-18a 中 ，for 循环 中 的 语句 没有 循环 
间 的 相关 ， 因 此 不 会 对 并 行 有 限制 ,这 里 唯一 限制 并 行 的 是 循环 迭代 的 次 数 。 在 图 8-18b 中 ， 
对 数组 A 的 访问 方式 将 可 并 行 部 分 限制 在 4 个 循环 迭代 中 ， 执 行 时 每 次 只 能 以 4 次 循环 秋 代 作 
为 一 个 “ 块 ”执行 ， 其 最 大 的 并 行 加 速 比 也 就 是 4。 

main() main() 


{ - { 


for(i:=m;i<M;+++) for (i:=m;i<M;+++ for (i :=m;i<M;+++) 


{ { { 


j:=C[i] 
A[i]:=A[i]+B[i].... A[il]:=A[i-4]+B[i]:.， A[i] :=A[j]+B[i] 
} } ve 
|) } 
} } ym 
} 





图 8-18 不 同 并 行 难度 的 循环 示例 


图 8-18c 的 循环 在 编译 时 无 法 并 行 化 ， 因 为 数组 A 的 索引 7 在 编译 时 是 未 知 的 ， 它 包含 在 
动态 可 修改 的 数组 中 。 对 某 些 迭代 来 说 ， 索 引 7 的 值 可 能 比 案 引 i 的 值 小 ， 这 在 循环 迭代 并 行 
执行 时 ， 会 导致 RAW 冲突 ,在 这 种 不 确定 的 情况 下 ， 传 统 并 行 编译 器 会 将 循环 转换 为 串 行 代 
码 。 然 而 ， 实 际 情况 也 可 能 是 在 所 有 和 友 代 中 ， 索 引 7 都 不 会 比索 引 守 小 ， 或 者 当 索 引 7 小 于 索引 
i 时， 两 者 之 间 的 差距 i-j 也 总 是 很 大 ， 以 至 于 计算 A[i] 和 A[j] 的 迭代 永远 不 会 在 多 核 甚至 
是 众 核 处 理 器 中 有 任何 时 间 上 的 重 倒 ， 因 此 编译 器 的 这 种 简单 处 理 方法 可 能 会 导致 大 量 的 线程 
级 并 行 机 会 被 浪费 掉 。 | 

如 图 8-18c 中 的 这 类 循环 ， 在 编译 时 无 法 证 明 它们 是 否 真 的 没有 循环 间 相 关 ， 这 种 情况 在 
数值 和 非 数 值 代码 中 是 十 分 常见 的 。 在 数值 代码 中 ， 如 果 循 环 中 的 数组 索引 是 循环 索引 的 线性 
函数 ， 则 只 能 证 明 在 一 段 合理 的 时 间 内 ， 不 存在 循环 间 相 关 。 此 外 ， 在 稀疏 矩阵 计算 中 ， 通 过 
其 他 整 型 数组 的 值 进行 数组 索引 也 是 非常 常见 的 。 不 过 ,在 非 数值 应 用 中 ， 通 常会 大 量 使 用 指 
针 ， 因 此 最 容易 出 现 这 种 跨 循 环 迭 代 的 、 无 法 静态 确定 地 址 的 内 存 访问 。 最 后 ， 通 常情 况 下 ， 
不 确定 性 还 有 另 一 个 来 源 ， 就 是 条 件 分 支 可 能 影响 循环 迭代 内 部 的 内 存 访问 。 

线程 级 推测 执行 可 以 支持 所 有 循环 的 并 行 化， 包括 含有 模糊 的 循环 间 数 据 相 关 的 情况 ( 参 
见 图 8-18c 的 例子 ) 。 对 于 循环 的 每 个 连续 迭代 ，TLS 都 推测 创建 出 一 个 新 的 线程 ， 并 和 原 有 的 
线程 (在 执行 过 去 和 现在 的 迭代 ) 并 行 执行 。 线 程 是 推测 执行 的 ， 因 为 即使 还 有 一 些 输入 值 
没有 确定 ， 线 程 也 会 开始 执行 。 因 此 ， 循 环 迭 代 之 间 可 能 会 发 生 写 后 读 相 关 引 起 的 冲突 。 我 们 
必须 对 这 种 冲突 进行 动态 检测 ， 当 检测 到 冲突 时 ， 依 赖 冲突 数据 的 线程 〈 以 及 所 有 执行 后 续 先 
代 的 其 他 推测 线程 ) 的 执行 过 程 必须 取消 、 回 滚 ， 并 重新 运行 。 当 某 个 更 时 的 迭代 修改 了 某 个 
内 存 地 址 ， 而 该 地 址 又 被 更 晚 的 某 个 迭代 读 取 时 ， 就 将 出 现 写 后 读 相关 冲突 。 

并 行 循环 代码 中 的 内 存 冲突 

图 8-19 展示 了 当 试图 并 行 执行 多 个 循环 迭代 时 所 引发 的 内 存 冲 突 ， 图 8-19a 给 出 了 循环 中 
的 前 4 个 顺序 迭代 ， 图 8-19b 给 出 了 4 个 线程 的 并 行 执行 。 线 程 的 起 始 时 间 是 错开 的 ， 因 为 它 
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们 是 按照 循环 索引 顺序 依次 创建 出 来 的 。 


load A 
store B | 迭代 1 
store A 
load B 
load A 
store B 迭代 2 
store A 
load B 









load A 
store B 







EE load A 
store A store B 
load B 





store A 
load B 


load A 


store B 迭代 3 
store A 
load B 


load A 


store B 迭代 4 
store A 
load B 


线程 4 





时 间 时 间 RAW WAW WAR 


a ) 品行 b ) 并 行 
图 8-19 循环 并 行 中 的 内 存 冲突 


为 了 避免 图 8- 19 中 显示 得 过 于 混乱 , 我 们 将 不 同类 型 的 数据 冲突 (RAW，WAW， 
WAR) ， 放 在 连续 迭代 的 不 同 组 中 进行 说 明 。 如 迭代 1 所 示 ， 每 个 线程 中 load B 操作 必须 总 是 
返回 同一 线程 store B 的 值 ， 与 之 相反 ，load A 操作 必须 总 是 返回 之 前 线程 store A 的 值 。 图 8-19 
显示 在 迭代 1 和 和 迭代 2 之 间 违 反 了 这 种 相关 性 ， 因 为 在 线程 1 执行 完 store A 之 前 ,线程 2 的 
load A 就 已 经 执行 。 这 是 一 个 RAW 冲突 ， 要 解决 这 个 问题 ， 必 须 推迟 线程 2 的 执行 使 得 load 
等 待 store 完成 ， 或 者 在 检测 到 冲突 后 ， 取 消 线 程 2 当前 的 执行 ， 并 在 稍 后 重新 执行 。 迭 代 2 和 
帮 代 3 中 则 展示 了 WAW 冲突 。 按 照 语义 ,变量 的 当前 值 必须 是 按照 循环 串 行 顺 序 时 的 最 新 
值 ， 在 图 8-19 的 情况 中 ， 这 一 点 是 满足 的 ， 因 为 对 每 个 变量 的 两 次 _store 都 是 按照 循环 索引 顺 
序 进行 的 ， 不过， 这 里 仍然 存在 一 个 潜在 的 冲突 ， 因 为 如 果 线 程 2 由 于 某 些 原因 被 推迟 执行 
store ， 那 么 将 导致 线程 2 和 线程 3 对 A 和 B 的 更 新 操作 乱 序 执行 ， 从 而 违反 WAW 冲突 。 最 后 ， 
迭代 3 和 和 迭代 4 中 展示 了 WAR 冲突 ， 对 A 的 WAR 冲突 是 满足 的 ， 但 对 B 的 WAR 冲突 就 不 满 
足 了 ， 因 此 ,线程 3 中 的 load B 操作 将 不 会 返回 同一 迭代 中 的 B 的 值 (这 才 是 按照 串 行 顺序 约 
束 下 的 最 新 值 ) ， 而 是 会 返回 在 迭代 4 中 的 store 值 ， 同 样 ， 我们 也 必须 解决 这 样 的 冲突 。 

循环 的 推测 并 行 

图 8-19 给 出 了 并 行 循环 中 内 存 冲 突 的 简单 例子 , 但 实际 上 ,这样 带 有 紧密 循环 间 依 赖 的 
真实 循环 是 无 法 有 效 并 行 的 。 因 此 ，TLS 主要 面向 循环 间 依 赖 很 少 、 间 隔 很 远 ， 且 在 编译 时 难 
以 预测 的 场景 ， 如 图 8-18e 中 的 循环 。 

为 了 保证 正确 性 ， 循 环 指令 的 执行 效果 看 起 来 必须 和 按照 循环 索引 顺序 执行 时 一 样 。 每 个 
线程 都 分 配 一 个 序列 号 ， 线 程 被 记 为 Ti, 是 按 循环 索引 顺序 的 索引 号 。 最 旧 的 〈 头 ) 线程 的 
序列 号 最 低 ， 所 有 其 他 线程 都 是 推测 执行 的 ， 因 为 这 些 线程 可 能 还 和 更 老 的 且 还 在 运行 的 线程 
之 间 存 在 RAW 冲突 ， 当 动态 检测 到 RAW 冲突 时 ， 推 测 线程 就 必须 取消 。 在 图 8-19 中 ,线程 
是 头 线程 线程 2、3、4 是 推测 线程 ， 头 线程 必须 在 下 一 个 线程 变 为 非 推测 性 线程 之 前 ， 先 将 
其 所 有 执行 结果 提交 到 内 存 ， 一旦 某 个 线程 完成 ， 其 对 应 的 线程 上 下 文 就 可 以 给 另 一 个 新 的 推 
测 线程 使 用 。 我 们 再 看 一 下 图 8-19 中 的 例子 ， 当 线程 1 的 所 有 store 都 提交 ， 且 线程 上 退出 后 ， 
线程 2 将 变 为 头 线程 ， 此 时 ， 执 行 循环 迭代 5 的 线程 5 开始 在 之 前 被 线程 1 使 用 并 释放 的 硬件 
上 下 文 上 推测 运行 。 因 为 头 线程 最 终 总 是 会 变 为 非 推测 线程 ， 所 以 这 个 计算 过 程 总 是 可 以 往 前 
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推进 。 

线程 级 推测 执行 的 基本 硬件 

要 支持 TLS， 每 个 线程 上 下 文 都 需 配 备 下 列 附 加 状态 : 

e 一 个 线程 序列 号 寄存 器 

e 一 个 speculation_active 位 

e 一 个 speculation_fail 位 

当 线 程 变 为 推测 线程 时 ， 置 上 speculation_active (SA) 位 ， 当 线程 变 为 非 推测 线程 时 ， 则 
重 置 SA 位 ，SA 状态 位 对 线程 的 每 次 内 存 访 问 都 非常 关键 。 在 推测 线程 开始 时 ， 重 置 specula- 
tion_fail (SF) 位 ， 当 检测 到 相关 冲突 时 ， 则 置 上 SF 位 。 当 推测 线程 执行 完成 时 ， 需 要 等 到 变 
为 头 线 程 ,然后 再 检查 其 对 应 的 SF 位 。 此 时 ， 如 果 SF 被 置 上 ， 则 说 明 推 测 失败 ， 头 线程 取消 
其 后 所 有 序列 号 更 高 (SF 位 被 设置 ) 线程 的 执行 ， 并 作为 非 推 测 线程 重新 开始 执行 。 相 反 ， 
如 果 SF 位 被 重 置 ， 则 说 明 推测 成 功 ， 线 程 变 为 非 推测 线程 ， 然 后 提交 结果 并 退出 。 

关键 要 解决 的 冲突 是 RAW 冲突 ， 当 检测 到 RAW 冲突 时 ， 主 要 问题 是 在 线程 中 设置 SF 
位 。 为 了 解决 这 一 问题 ， 可 以 使 用 普通 CMP 系统 中 常见 的 cache 层次 结构 ， 这 与 TM 中 的 情况 
类 似 ，L1 cache 保存 推测 值 ， 而 共享 L2 cache 只 保存 已 经 提交 的 〈 非 推测 的 ) 值 。 除 了 RAW 
外 ，WAW 和 WAR 冲突 可 以 通过 在 Ll cache 中 进行 重 命名 来 自动 解决 〈 即 每 当 推测 线程 访问 
一 个 内 存 块 时 ， 就 在 本 地 LI cache 中 分 配 一 个 推测 的 数据 块 副 本 ) 。 

常见 的 MSI- 无 效 协议 通过 每 个 cache 行 的 两 个 状 态 位 〈 有 效 位 和 脏 位 ) 以 及 两 种 总 线 请 求 
( (BusRd 和 BusRdX) 来 确保 Ll cache 之 间 的 一 致 性 。 在 支持 TLS 时 必须 在 MSI- 无 效 协 议 中 加 
入 一 些 新 的 特征 ， 以 便 处 理 Ll cache 中 的 推测 值 的 问题 。 对 推测 cache 块 的 修改 必须 限定 在 本 
地 LI cache 中 ， 并且 不 能 传播 到 存储 系统 中 (比如 L2 cache 或 其 他 LI cache)。 例 如 ， 决 不 允 
许 将 数据 块 的 推测 副本 进行 刷新 ， 只 有 非 推 测 修 改 的 副本 才能 转发 给 其 他 Ll cache。 

为 了 检测 RAW 冲突 ,每 当 对 推测 数据 块 进行 修改 时 ， 都 必须 通知 远程 Ll cache， 因 此 ， 
在 协议 中 增加 了 一 个 名 为 Squash 的 总 线 请 求 。 每 当 'store 在 推测 数据 块 中 命中 时 ， 就 会 发 送 一 
个 Squash 总 线 请 求 到 所 有 Ll cache， 线 程 的 序列 号 会 被 打包 到 Squash 总 线 请 求 上 ， 这 样 每 个 
cache 都 可 以 判断 自己 相 比 于 发 出 请 求 的 cache， 是 处 于 更 靠 前 的 推测 还 是 靠 后 的 推测 。 当 推测 
线程 从 更 低 序列 号 的 线程 中 接收 到 一 个 Squash 请 求 时 ， 线 程 的 SF 将 被 置 位 ,该 线程 中 止 ， 后 
续 的 所 有 其 他 线程 也 都 被 取消 。 

推测 数据 块 的 副本 必须 一 直 留 在 Ll cache 中 ， 直 到 线程 的 推测 执行 阶段 结束 ， 因 为 这 样 可 
以 表明 该 数据 块 被 推测 加 载 和 修改 过 ， 并 且 有 对 数据 块 副本 的 推测 修改 的 跟踪 记录 。 如 果 执 行 
过 程 中 需要 将 该 数据 块 副本 替换 出 cache， 那 么 它 对 应 的 线程 以 及 后 续 的 所 有 线程 都 必须 取消 ， 
就 和 检测 到 相关 冲突 的 效果 一 样 。 最 后 ， 线 程 一 旦 变 为 头 线程 和 非 推 测 状态 ， 那 么 线程 就 可 以 
成 功 执行 了 。 

当 推 测 线程 已 经 执行 到 最 后 ， 并 变 为 头 线程 后 ， 就 将 检查 SF 标志 位 。 如 果 SF 还 是 处 于 重 ， 
置 状态 ， 则 表示 推测 成 功 ， 此 时 ，Ll cache 中 的 所 有 推测 数据 块 必须 先 变 成 非 推测 的 ， 然 后 线 
程 退 出 ,平一 个 线程 再 变 为 头 线程 。 如 果 SF 位 被 置 位 ， 则 推测 失败 ， 此 时 所 有 的 推测 数据 块 
均 被 无 效 掉 ， 然 后 线程 在 非 推测 模式 下 重新 执行 代码 。 

优化 

上 述 的 硬件 支持 描述 非常 简单 ， 它 面向 的 是 真正 具有 循环 间 依 赖 的 情况 ,并 且 依 赖 关 系 通 
常 具有 较 大 距离 、 且 不 可 预测 。 当 存在 相关 的 两 次 访 存 之 间 的 地 址 很 少 相 等 (或 从 不 相等 ) 
时 ;这 种 方式 就 非常 有 效 。TSL 还 可 以 和 循环 迭代 间 的 同步 操作 结合 起 来 使 用 ， 以 消除 冲突 。 
当 相 关 的 地 址 是 相同 的 ， 或 大 部 分 情况 下 是 相同 的 ， 并 且 相 关 距 离 很 短 时 ， 编 译 器 会 尽量 去 避 
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免 冲突 或 者 是 使 用 同步 来 消除 冲突 。 这 里 举 一 个 冲突 避免 的 简单 例子 ， 在 每 次 迭代 中 都 有 这 么 
一 个 操作 : 更 新 循环 索引 ， 然 后 检测 索引 值 看 是 否 循环 已 经 执行 结束 。 对 于 这 种 情况 ， 我 们 可 
以 简单 地 将 循环 索引 更 新 并 从 循环 主体 中 移 除 ， 让 其 成 为 推测 线程 创建 机 制 的 一 部 分 。 

还 有 很 多 其 他 可 行 的 优化 ， 但 通常 每 种 优化 都 会 增加 软 硬 件 的 复杂 度 。 推 测 线程 一 旦 发 生 
冲突 ， 就 可 能 会 立即 重启 ， 而 不 会 等 到 执行 完成 并 变 成 非 推测 状态 。 还 有 一 些 更 先进 和 复杂 的 
优化 策略 ， 可 以 做 到 只 取消 那些 受 RAW 相关 冲突 影响 的 执行 部 分 ， 并 只 重新 执行 那些 受 影响 
的 部 分 。 


8. 5.5 帮助 线程 


TM 和 TLS 都 依赖 有 效 的 硬件 支持 来 检测 线程 间 的 访 存 冲 突 ， 并 中 止 预测 错误 的 线程 ， 此 
外 ， 这 些 推测 线程 必须 在 确认 推测 成 功 后 才能 将 数据 提交 到 架构 状态 中 ， 这 导致 这 些 方法 在 具 
体 实 现时 更 加 复杂 。 如 果 推 测 线程 不 会 对 任何 架构 状态 做 修改 ， 那 么 复杂 性 可 以 有 所 降低 。 这 
时 非 推测 线程 负责 执行 程序 ， 而 推测 线程 仅仅 用 于 辅助 程序 的 执行 ， 推 测 线程 在 性 能 、 功 耗 、 
可 靠 性 等 方面 可 能 会 有 所 帮助 ， 这 种 线程 通常 叫 作 帮助 线程 、 辅 助 线程 或 从 属 线程 。 

我 们 使 用 数据 预 取 来 说 明 帮 助 线程 是 如 何 工作 的 ， 因 为 预 取 是 帮助 线程 最 常见 的 应 用 。 数 
据 预 取 在 应 用 需要 数据 之 前 就 推测 性 地 将 数据 从 内 存 预 取 到 cache， 这 是 一 个 无 约束 力 的 
(non-binding) 访 存 load 操作 ， 不 改变 结构 状态 ， 它 只 是 将 内 存 块 取 到 处 于 一 致 性 状态 下 的 某 
个 处 理 器 核 的 cache 中 。 为 了 更 有 效 地 预 取 数据 ， 帮 助 线程 在 应 用 实际 取出 数据 前 就 需要 知道 
数据 访问 的 地 址 ， 从 而 有 足够 的 时 间 来 及 时 完成 预 取 。 最 后 ， 预 取 地 址 必须 准确 ， 即 预 取 的 
数据 必须 被 应 用 程序 使 用 ， 和 否则 预 取 就 白 做 了 。 大 多 数 预 取 机 制 是 基于 硬件 实现 的 ， 简 单 
且 自 动 完成 ， 一 般 在 出 现 miss (失效 ) 之 后 的 地 址 空间 中 连续 预 取 多 个 数据 块 (顺序 预 
取 ), 或 者 通过 固定 的 步 长 来 预 取 数 据 块 ( 步 长 预 取 )。 不 过 ， 在 如 今 的 主流 应 用 领域 , 包 
括 数 据 库 、 多 媒体 和 游戏 等 应 用 中 ， 内 存 访问 范围 都 很 大 ， 通 常 很 难 有 效 利用 处 理 器 的 
cache 结构 ， 往 往 存在 大 量 的 cache 失效 ， 导 致 明显 的 性 能 下 降 。 这 些 应 用 的 数据 访问 行为 
不 可 预测 ， 因 此 要 准确 预测 不 久 的 将 来 会 被 访问 的 地 址 是 非常 困难 的 ， 甚 至 是 不 可 能 的 。 
因此 ， 帮 助 线程 不 是 基于 某 种 预测 器 来 进行 地 址 预测 ， 而 是 预先 计算 出 这 些 难 以 预测 的 地 
址 再 进行 预 取 。 通 常 帮助 线程 中 实现 的 预 取 算法 可 以 是 为 每 个 数据 访问 专门 定制 的 ， 因 为 
这 种 机 制 不 是 基于 硬件 的 。 

为 了 预先 计算 load 访问 的 地 址 ， 与 该 load 操作 相关 的 帮助 线程 先 执行 能 够 计算 出 该 load 
地 址 的 一 个 程序 指令 子 集 ， 称 为 load 操作 的 反 向 切片 (backward slice) 。 图 8-20 说 明了 什么 是 
反 向 切片 ， 从 指令 6 开始 ， 程 序 执行 反 向 跟踪 ， 寻 找 之 前 的 最 近 一 个 定义 R2 的 指令 ， 在 这 个 
例子 中 ， 指 令 G 通过 寄存 器 R3 和 RS 的 加 操作 来 定义 R2 ， 继 续 反 向 跟踪 程序 的 执行 再 找到 对 
R3 和 RS 的 最 近 定义 ， 可 以 看 到 R3 由 指令 B 定义 ，R5S 由 指令 IlL 定义 ， 然 后 上 述 过程 继 续 递 
归 下 去 。 在 本 例 中 ， 下 一 步 操 作 就 是 继续 寻找 定义 R4 值 的 指令 


funcA() { 

ee 执行 反 向 切片 
Il: R5Se R4 + 1 一 -> Slicel() { 
12: R6 了 这 - R5=-R4+1 
I3: R3 = RMA* R4 = 
I4: R8 sR7 2 = R3 + R5 
I5: R2_=_ R3 +:R5 针对 load 的 数据 预 取 a 0 (R2) 
T65 Load TP ORE) 


} 
线程 0 ( 主线 程 ) 线程 1 { 帮助 线程 ) 
图 8-20 ”帮助 线程 示例 
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一 且 load 操作 的 反 向 切片 形成 ， 其 对 应 的 指令 将 包含 在 帮助 线程 中 ， 由 于 反 向 切片 包含 的 
指令 比 整个 程序 少 ， 帮 助 线程 执行 反 向 切片 的 速度 很 可 能 比 主线 程 的 速度 快 ， 因 此 帮助 线程 可 
能 在 获得 load 操作 地 址 后 ， 在 主线 程 执行 load 操作 前 的 某 个 合适 时 间 点 将 值 返回 到 cache 中 。 

上 述 方法 中 ， 必 须 为 每 个 需要 预 取 的 load 操作 产生 反 向 切片 ， 由 于 反 向 切片 的 产生 需要 通 
过 程序 的 依赖 图 来 向 后 倒 推 ,因此 只 能 在 编译 时 完成 。 此 外 ， 还 应 该 尽量 减少 需要 产生 预 取 帮 
助 线程 的 load 操作 的 数量 。 在 大 多 数 应 用 中 ， 出 现 cache 失效 的 load 操作 占 全 部 load 操作 的 比 
例 一 般 都 比较 小 。 通 过 分 析 ， 编 译 器 可 以 识别 出 那些 可 能 会 出 现 失效 的 load 操作 ， 这 类 load 通 
常 被 称 为 失职 load (delinquent load) ， 然 后 编译 器 为 这 些 load 产生 反 向 切片 。 反 向 切片 中 的 指 
令 可 能 会 有 限制 ， 这 使 得 编译 器 在 产生 反 向 切片 时 ,在 依赖 图 中 不 能 回溯 太 远 。 一 旦 编译 器 停 
止 产生 反 向 切片 ;就 需要 将 切片 中 使 用 了 的 但 是 不 在 切片 中 定义 的 寄存 器 值 作 为 切片 的 输入 ， 
在 本 例 中 ，R4 的 值 需要 作为 切片 的 输入 。 

一 县 切片 产生 ， 就 可 以 存储 为 应 用 程序 二 进 制 文件 中 的 一 部 分 ， 编 译 右 甚至 可 以 通过 一 条 
专用 的 制导 指令 来 指示 何 时 启动 帮助 线程 。 例 如 在 这 个 例子 中 ， 编 译 器 可 以 在 指令 也 :处 放置 
一 条 制导 指令 来 启动 帮助 线程 ， 使 用 针对 运行 时 环境 的 制导 指令 给 出 切片 的 输入 寄存 器 。 帮 助 
线程 的 硬件 根据 编译 制导 指令 来 决定 是 否 启 动 帮助 线程 。 例 如 ， 如 果 当 前 CMP 中 没有 空闲 的 
线程 上 下 文 来 执行 帮助 线程 ， 硬 件 可 能 会 忽略 上 述 产生 帮助 线程 的 编译 制导 指令 ; 此 外 ， 即 使 
有 可 用 的 线程 上 下 文 ， 如 果 动 态 条 件 不 是 很 理想 (比如 由 于 总 线 拥塞 ， 目 前 系统 中 已 经 有 很 多 
未 完成 的 访 存 操作 ) ， 硬 件 也 可 能 会 决定 不 启动 帮助 线程 。 如 果 帮 助 线程 与 主线 程 在 同一 个 多 
线程 处 理 器 核 上 执行 ， 则 无 需 额 外 将 数据 取 至 Ll cache 中 。 如 果 帮 助 线程 和 主线 程 在 CMP 的 
不 同 处 理 器 核 上 执行 ， 则 切片 的 输入 寄存 器 值 必须 前 递 给 帮助 线程 。 此 外 ， 大 多 数 CMP 处 理 
器 核 只 共享 L2 cache， 因 此 ， 当 帮助 线程 与 主线 程 运 行 在 不 同 的 处 理 器 核 上 时 ， 也 只 能 将 内 存 
数据 预 取 到 共享 的 L2 cache 中 。 

为 了 更 好 地 发 挥 预 取 帮助 线程 的 作用 ， 还 有 几 个 选择 是 必须 并 慎 考 虑 的 。 首 先 ， 帮 助 线程 
是 作为 一 个 专门 函数 调用 的 ,在 距离 目标 load 足够 远 之 前 就 启动 执行 ， 以 此 来 隐藏 潜在 的 
cache 失效 延迟 。 然 而 ， 如 果 这 个 距离 太 长 ， 那 么 预 取 回来 的 数据 可 能 在 load 执行 前 又 被 替换 
掉 。 其 次 ， 反 向 切片 结构 在 存在 模糊 数据 依赖 的 情况 下 可 能 会 不 准确 ， 从 而 导致 不 准确 地 计算 
load 地 址 。 最 后 ， 帮 助 线程 也 会 产生 额外 的 功 耗 来 执行 切片 程序 ， 因 此 ,帮助 线程 必须 能 够 有 
效 减 少 cache 失效 次 数 ， 以 此 来 补偿 帮助 线程 自身 的 开销 。 


8.5:6 通过 宛 余 执行 提高 可 靠 性 

传统 情况 下 ， 系 统 可 靠 性 主要 通过 双 模 或 三 模 宛 余 来 保障 。 在 三 模 宛 余 情 况 下 ， 同 一 份 代 
码 在 三 个 处 理 器 上 锁 步 执行 ， 每 个 周期 后 ， 对 三 个 处 理 器 执行 的 结果 进行 比较 ， 并 通过 多 数 优 
先 的 投票 方式 来 决定 三 个 结果 中 的 哪个 应 该 被 提交 到 架构 状态 中 。 很 显然 ， 对 于 日 常 的 低 端 计 
算 来 说 ， 这 种 重复 执行 的 开销 肯定 是 难以 接受 的 。 不 过 ， 由 于 晶体 管 尺寸 的 缩小 和 电源 电压 的 
降低 ， 可 靠 性 在 低 端 计算 中 也 越 来 越 重要 ， 我 们 可 以 借助 CMP 和 多 线程 处 理 器 核 中 的 大 量 线 
程 来 进行 元 余 执行 ， 从 而 提高 系统 的 可 靠 性 。 

片上 多 处 理 器 在 多 个 粒度 上 提供 了 宛 余 组 件 ， 例 如 在 同 构 CMP 中 ， 两 个 处 理 器 核 完全 相 
同 ， 除 了 共享 L2 cache 之 外 ,没有 任何 其 他 计算 结构 的 共享 。 在 多 线程 处 理 器 核 中 ,线程 上 下 
文 共享 多 种 资源 ， 如 功能 单元 和 译 码 器 ,不 过 寄存 器 文件 和 重 排序 缓冲 区 可 能 是 分 离 的 。 组 件 
上 的 完 余 设置 可 以 用 于 提高 系统 的 可 靠 性 ，CMP 中 的 两 个 处 理 器 核 或 多 线程 处 理 器 核 中 的 两 
个 线程 上 下 文 可 以 同时 运行 相同 的 代码 ， 其 中 一 个 线程 是 领导 者 以 及 执行 程序 的 主线 程 ， 另 一 
个 线程 是 检查 者 ， 对 两 个 处 理 器 核 或 同一 核 上 的 两 个 线程 上 下 文 的 计算 进行 相互 校 验 。 当 检查 
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者 发 现 两 次 执行 存在 不 一 致 时 ， 则 检测 到 错误 ， 该 错误 可 以 通过 后 面 重新 执行 来 纠正 。 由 于 架 
构 状 态 还 没有 更 新 ， 这 两 个 线程 可 以 在 引发 错误 的 指令 处 重新 执行 。 比 如 ， 这 两 线程 可 能 清空 
流水 线 ， 并 从 引发 错误 的 指令 处 重新 取 指 。 一 方面 ， 如 果 第 一 次 检测 到 的 错误 属于 瞬时 错误 ， 
那么 再 次 执行 时 基本 不 大 可 能 再 发 生 这 种 错误 。 另 一 方面 ， 如 果 错 误 是 永久 性 的 硬件 错误 ， 则 
重新 执行 并 不 能 解决 问题 ， 但 至 少 能 够 检测 到 该 错误 ， 并 采取 必要 的 纠正 措施 。 

当 利用 核 内 多 线程 来 执行 两 份 相同 代码 时 ， 整 体 可 靠 性 受到 两 个 线程 间 资 源 共享 程度 的 限 
制 ， 如 果 共 享 结构 中 存在 永久 性 或 瞬间 故障 ， 会 同时 影响 两 个 线程 的 执行 ， 但 这 种 情况 下 的 错 
误 无 法 检测 到 。 例 如 ， 如 果 两 个 线程 上 下 文 共享 译 码 逻 辑 ， 那 么 译 码 器 中 的 永久 故障 将 导致 指 
令 执 行 的 两 个 实例 执行 结果 完全 相同 ， 但 却 是 错误 的 结果 。 

图 8-21 给 出 了 核 内 多 线程 是 如 何 检测 硬件 故障 所 造成 的 错误 的 ， 在 此 例 中 ,两 条 指令 在 
双 路 交错 多 线程 处 理 器 核 上 的 两 个 线程 中 元 余 执 行 ， 其 中 一 条 指令 是 一 个 简单 的 整数 加 法 指令 
(R1I =R2 + R3)， 另 一 条 指令 是 一 个 复杂 的 浮 点 除法 指令 (Fl = F2/F3)。 指 令 预 取 队 列 
(IFQ) 包含 这 两 条 指令 ， 每 条 指令 有 两 个 实例 ， 多 线程 处 理 器 核 有 两 个 译 码 器 : 一 个 是 简单 
译 码 器 ， 只 可 以 译 码 整数 指令 ; 另 一 个 是 复杂 译 码 器 ， 既 可 以 译 码 整数 指令 ， 也 可 以 译 码 浮 点 
指令 。 整 型 ALU 也 有 两 个 , 但 是 浮 点 单元 (FPU) 只 有 一 个 。 当 第 一 个 整数 指令 宛 余 执行 时 ， 
两 个 译 码 器 和 ALU 并 行使 用 ， 由 于 对 这 条 整 型 指 念 的 两 次 执行 不 共享 逻辑 块 ， 因 此 元 余 执 行 
可 以 检测 到 任意 一 个 执行 中 出 现 的 错误 ; 又 由 于 执行 中 用 到 的 两 套 硬件 逻辑 也 完全 相同 ， 这 种 
情况 下 也 可 以 检测 到 硬件 故障 。 


F1=F2/F3 


R1=R2+R3 
| R1=R2rR3 | 


图 8-21 基于 同时 多 线程 处 理 右 核 空间 元 余 执 行 的 硬件 故障 检测 


下 面 我 们 再 看 第 二 条 浮 点 指令 的 执行 情况 ， 如 图 8-22 中 所 示 。 此 时 ， 只 有 复杂 译 码 器 能 
够 译 码 这 两 条 浮 点 除法 指令 〈 一 个 原始 副本 ， 一 个 宛 余 副本 ) ， 原 始 副 本 和 元 余 副 本 以 时 间 元 
余 的 方式 执行 ， 即 浮 点 指令 的 第 一 个 实例 在 第 N 个 周期 译 码 ， 而 第 二 个 实例 在 第 N+1 个 周期 
译 码 。 因 此 ， 了 瞬时 错误 几乎 一 定 能 检测 到 ， 因 为 这 两 次 执行 基本 上 不 可 能 都 碰 到 同一 个 瞬时 错 
误 。 不 过 ， 复 杂 译 码 器 中 的 硬件 故障 会 以 同样 的 方式 影响 两 个 副本 执行 ， 因 此 ， 硬 件 故障 无 法 
检测 出 来 。 同 样 ， 由 于 两 个 副本 都 在 相同 的 FPU 上 执行 ， 因 此 也 无 法 检测 到 FPU 单元 中 的 硬 
件 故 障 。 








图 8-22 同时 多 线程 处 理 器 核 因 共享 资源 而 无 法 利用 元 余 执 行 检 测 到 硬件 故障 


340 第 8 草 


习题 


| 


8.2 


8.3 


8. 4 


本 题 探 讨 是 否 值得 增加 新 的 改进 微 架 构 以 提高 块 式 〈 粗 粒度 ) 多 线程 处 理 器 的 性 能 (不 考虑 功 

耗 )。 假定 线程 切换 只 发 生 在 L2 cache 失效 时 ， 且 开销 为 60 个 周期 (新 线程 可 以 开始 执行 之 前 的 

时 间 ) 。 再 假定 cache 失效 时 ， 有 是 够 的 就 绪 线 程 用 来 切换 ， 且 已 知 当 前 的 I2 cache 的 命中 率 是 

50% 。 新 的 微 架 构 模 块 是 cache 命中 预测 器 ， 可 以 预测 访 存 操作 是 否 在 L2 (注意 不 是 Ll1) cache 中 

命中 。 我 们 用 这 个 预测 期 来 决定 何 时 进行 线程 切换 。 如 果 预 测 器 预测 cache 失效 ， 则 尽早 启动 线程 

切换 。 考 虑 如 下 4 种 情况 : 

(a) 预测 器 预测 L2 cache 失效 ， 真 实 结果 也 是 L2 cache 失效 ， 此 时 线程 切换 会 尽早 启动 ， 且 线程 
切换 开销 可 以 降低 至 20 个 周期 (对 比 基 线 60 个 周期 ) 。 

(b) 预测 器 预测 L2 cache 失效 ， 真 实 结果 是 L2 cache 命中 ， 此 时 由 于 之 前 启动 了 线程 切换 ， 会 导 
致 不 必要 的 流水 线 清空 ， 最 终 导致 线程 切换 开销 增加 到 120 个 周期 。 

(c) 预测 器 预测 L2 cache 命中 ， 真 实 结 果 也 是 L2 cache 命中 ， 此 时 没有 启动 线程 切换 ， 因 而 没有 
收益 也 没有 损失 。 

(d) 预测 器 预测 L2 cache 命中 ， 真 实 结果 是 L2 cache 失效 ， 此 时 失去 了 尽早 启动 线程 切换 的 机 会 ， 
因此 将 付出 60 个 周期 的 线程 切换 代价 。 
针对 上 述 4 种 情况 ， 请 问 在 什么 样 的 预测 精度 下 ， 这 种 新 的 微 架 构 模 块 可 以 达到 一 个 损益 平衡 

点 ， 如 果 I2 cache 的 命中 率 从 50% 提高 到 80% ， 那 么 对 预测 器 精度 的 影响 又 是 如 何 ? 

使 用 图 8-4 中 所 示 的 依赖 图 来 解答 本 题 ， 我们 再 做 出 如 下 修改 ; 假定 X5 cache 命中 ， 因 此 计算 只 需 

要 一 个 周期 s 

(a) 采用 交错 多 线程 和 块 式 多 线程 对 依赖 图 分 别 进行 重新 推测 调度 (与 表 8-1 相似 ,， 且 与 生成 表 
8-1 的 所 有 假设 保持 一 致 ) ， 需 要 注意 的 是 ， 当 X5 cache 命中 时 ， 则 块 式 多 线程 等 同 于 一 个 单 
线程 处 理 器 核 ， 先 执行 X， 然 后 再 执行 了 。 

(b) 在 这 种 情况 下 ， 交 错 多 线程 比 块 式 多 线程 快 多 少 (时 钟 周期 )? 

(ec) 交错 多 线程 需要 更 多 的 硬件 以 支持 有 选择 性 的 清空 ， 并 且 需 要 使 用 线程 功 来 进行 标识 (tag) 
匹配 s- 由 于 设计 的 复杂 性 ， 交 错 多 线程 处 理 器 的 时 钟 周期 会 慢 20% 。 针 对 图 8-4 中 的 线程 代 
码 (X5 cache 命中 ) ， 使 用 交错 多 线程 来 执行 是 否 还 有 意义 ? 

假定 有 三 种 片上 互连网 络 的 系统 架构 可 以 选择 : 单 向 环 ， 双 向 环 ，Nx NN 的 mesh 网 络 。L1 cache 之 

间 的 一 致 性 有 两 种 选择 : 基于 侦 听 的 ， 基 于 目录 的 。 现 有 一 个 包含 64 个 处 理 器 核 的 芯片 ， 每 个 处 

理 器 核 带 一 个 私有 的 Ll cache， 且 所 有 核 共 享 一 个 较 大 的 12 cache，L2 cache 分 为 64 个 bank，, 每 个 

bank 分 配 到 一 个 处 理 器 核 上 ， 两 个 直接 相连 的 处 理 器 核 之 间 的 通信 延迟 为 1 个 周期 ， 路 由 延迟 的 

计算 方式 是 数据 包 每 经 过 一 个 路 由 器 就 增加 1 个 周期 ， 基 于 目录 的 cache 一 致 性 机 制 下 访问 目录 的 

时 间 是 16 个 周期 。 假 设 不 存在 任何 线路 或 目录 访问 的 竞争 。 

(a) 选择 哪 种 设计 组 合 时 ， 维 护 一 致 性 所 需 的 延迟 最 短 ? 

(b) 假设 有 一 个 片上 1024 核 的 众 核 CMP 结构 ， 目 录 访 问 的 延迟 也 增加 到 20 个 周期 ， 在 这 种 情况 
下 ， 又 应 该 选择 哪 种 设计 组 合 以 获得 最 短 的 延迟 ? 

通常 我 们 很 难 确定 在 某 种 场景 下 是 使 用 锁 还 是 使 用 事务 内 存 (TM) 机 制 会 更 好 ， 尤 其 是 考虑 到 实 

现 TM 语义 所 需 的 硬件 复杂 性 。 本 题 探讨 这 些 问 题 之 间 的 权衡 。 假 定 两 个 线程 Tl 和 T2 正在 执行 两 

段 代 码 ， 这 两 段 代码 可 能 需要 互 斥 锁 ， 因 为 两 个 线程 会 有 条 件 地 修改 同一 个 共享 变量 。 假定 每 个 

线程 在 各 自 临界 区 内 执行 10 条 指令 。 使 用 锁 的 代码 可 以 在 机 器 A 上 运行 ,使 用 TM 的 代码 可 以 在 

机 器 B 上 运行 。 A 和 B 都 是 多 线程 机 嚣 ， 支 持 Tl 和 了 T2 同时 执行 ,两 个 机 器 执行 临界 区 中 代码 时 

的 CPI 都 为 1， 它们 唯一 的 区 别 是 ; 因为 机 器 B 需要 支持 TM 语义， 机 器 B 的 周期 时 间 比 机 器 A 的 

周期 时 间 长 20% 。 如 果 事 务 失败 ， 则 额外 需要 20 个 周期 开销 来 清除 事务 状态 。 

(a) 如 果 两 个 线程 同时 读 取 /修改 共享 变量 的 可 能 性 是 10% ( 即 90% 的 时 间 没有 共享 ) ， 哪 个 机 器 更 快 ? 
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(b) 随 着 临界 区 的 大 小 逐渐 增 大 ， 出 现 冲 突 的 可 能 性 也 逐渐 增加 ， 因 此 ， 如 果 临 界 区 中 指令 数 
从 10 增加 到 1000， 出 现 冲 突 的 可 能 性 从 10% 增 加 到 20%， 在 这 种 情况 下 ， 又 是 哪个 机 器 
更 快 ? 

假定 一 个 16 路 CMP 系统 运行 在 一 个 功 耗 受 限 的 环境 中 , 'CMP 系统 运行 时 可 以 自动 地 配置 为 1，2， 

4，8，16 个 处 理 器 核 ， 但 总 的 功 耗 限制 是 固定 的 。 例 如 ，CMP 系统 可 以 按 单 核 形式 运行 ， 让 其 他 

15 个 处 理 器 核 都 休眠 ， 从 而 借助 其 他 休眠 线程 所 节省 的 功 耗 来 提高 自身 的 频率 。 假 定 休 眠 和 唤醒 

的 时 间 开 销 都 为 零 ， 而 功 耗 和 频率 呈 平 方 关系 。 比 如 ， 当 单个 处 理 器 核 可 以 使 用 全 部 16 个 核 的 功 

耗 时 ， 其 频率 就 可 以 提高 4 倍 。 上 述 这 种 结构 称 为 EPI 可 调 CMP。 
现在 假定 有 一 个 可 部 分 并 行 的 应 用 ， 启 动 时 是 单线 程 ， 开 始 的 串 行 模式 占据 5% 的 执行 时 间 ; 

在 接 下 来 40% 的 时 间 里 ， 该 应 用 以 16 个 线程 运行 ; 而 在 接 下 来 的 40% 的 时 间 里 ， 以 4 个 线程 运 

行 ; 在 剩余 的 15% 执行 时 间 里 ， 又 是 单线 程 。 

(a) 相 比 单 核 机 器 (消耗 的 总 功 耗 相同 ， 但 是 运行 频率 更 高 ， 按 照 功 耗 与 频率 呈 平 方 关系 来 计 
算 ) ， 这 个 CMP 系统 使 用 相同 功 耗 运行 该 应 用 的 加 速 比 是 多 少 ? 

(b) 相 比 传统 的 16 路 CMP 系统 〈 不 支持 处 理 器 核 的 动态 重 配置 功能 ) ， 题 中 的 CMP 系统 使 用 相 
同 功 耗 时 能 获得 的 加 速 比 是 多 少 ? 

(c) 由 于 电压 调节 的 限制 ,假设 将 来 的 功 耗 与 频率 之 间 呈 线性 关系 ， 请 解释 在 这 种 情况 下，EPI- 
可 调 CMP 还 有 哪些 优势 。 

考虑 图 7-2 流程 图 中 所 示 的 四 迭代 Jacobi 方法 ， 在 这 个 流程 图 的 每 次 迁 代 过 程 中 ，4 个 线程 同时 计 

算 向 量 X; 的 新 值 (和 YY; 的 值 是 线性 函数 关系 ) ， 然 后 ， 线 程 使 用 barrier 进行 同步 ， 接 着 使 用 barri- 

er 前 产生 的 X; 值 来 并 行 计算 4 个 Y; 值 ， 然 后 ，4 个 线程 再 次 通过 barrier 同步 ， 等 待 进行 收敛 测 

试 。 如 果 满 足 某 个 收敛 条 件 ， 则 程序 退出 ， 否 则 循环 继续 ， 重 新 回 到 计算 X,。 

(a) 首先 ， 请 使 用 barrier 同步 原 语 将 流程 图 转换 成 并 行 算法 的 伪 代 码 (类 似 于 图 5-2 所 示 的 伪 代 
码 ) ， 假 定 在 第 二 个 barrier 后 面 的 收敛 测试 函数 在 单线 程 中 执行 。 

(b) 使 用 编译 制导 指令 ,将 流程 图 转换 为 OpenMP 并 行程 序 ， 可 用 的 编译 制导 指令 及 其 语义 可 以 
参考 www. OpenMP. org。 

(c) 将 流程 图 转换 为 基于 事务 内 存 的 实现 ， 代 码 作为 事务 执行 ， 类 似 于 图 8-15b 中 所 示 的 例子 。 

(d) 哪 种 实现 方式 (OpenMP 还 是 事务 内 存 ) 可 能 会 更 快 ? 请 分 析 这 两 种 实现 方式 的 性 能 。 

考虑 如 下 代码 片段 : 

R3 R7 x 

R4 R3 x 

R7 R5 x R6 

RS5 R4 x 

R3 R5 x R4 

Load R3, 0(R5) -- (L1) 

Store R2, 0 (R2) \ 

R7 = R6 x 2 

R2 = R3 十 R5 

Load R1, 0(R2) -- (L2) 


代码 最 后 的 load 指令 (12) 是 一 个 关键 load， 在 cache 中 的 命中 率 为 50% ,我 们 的 目标 是 使 用 

反 向 切片 对 该 load 进行 预 取 。 

(a) 假定 第 一 次 load (L1) 在 cache 中 总 是 命中 ， 且 命中 延迟 为 1 个 周期 。 其 他 所 有 指令 的 执行 也 
都 只 需要 1 个 周期 。 如 果 L2 的 失效 延迟 是 10 个 周期 ， 那 么 为 了 完全 隐藏 [2 的 失效 延迟 ， 预 
取 需 要 在 多 少 条 指令 之 前 启动 ? 

(b) 假定 第 一 次 load (L1) 在 cache 中 失效 的 概率 是 20% ， 请 说 明 在 这 种 情况 下 ， 切 片 中 的 预先 
计算 是 否 有 助 于 提高 整体 性 能 。 
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8.8 (a) 考虑 一 个 简单 的 单线 程 五 级 流水 线 。 该 流水 线 将 每 一 个 cache 失效 视 为 一 个 冲突 并 冻结 流水 线 ， 
当 执 行 一 个 基准 测试 程序 时 ， 假 定 每 100 个 周期 发 生 一 次 Ll cache 失效 ， 如 果 该 块 是 在 L2 上 ， 
则 每 一 个 Ll cache 失效 需要 10 个 周期 来 满足 ， 如 果 在 I2 上 失效 ， 则 需要 50 个 周期 。 经 过 200 
个 周期 的 计算 后 ， 发 生 一 次 L2 cache 失效 ， 假 定 在 不 考虑 cache 失效 的 情况 下 ，CPI 为 1， 当 考 
虑 到 cache 失效 延迟 时 ， 实际 的 CPI 是 多 少 ? 
考虑 与 (a) 相同 的 例子 ,但 假定 硬件 现在 是 两 路 多 线程 ， 类似 于 图 8-3 所 示 。 假 定 切换 开销 是 
零 ， 且 现在 有 两 个 如 第 一 种 情况 所 述 的 具有 相同 cache 失效 行为 的 线程 ， 则 此 时 在 两 路 多 线程 
机 器 上 的 两 个 程序 的 CPI 分 别 是 多 少 ? CPI 是 否 有 提高 ? 如 果 有 ， 解 释 是 怎样 提高 的 ; 如 果 没 
有 ， 解 释 为 什么 要 研制 此 两 路 多 线程 机 器 。 
重新 考虑 (a) 中 的 情况 ， 但 线程 切换 开销 是 5 个 周期 。 再 计算 每 个 线程 的 CPI， 并 解释 为 什么 
它 会 增加 、 减 少 或 保持 不 变 。 
(d) 考虑 12 失效 的 延迟 从 50 升 至 500 个 周期 ,切换 开销 从 5 升 至 50 个 周期 计算 此 时 机 器 的 CPI。 
8.9 以 下 两 个 改进 的 组 合 能 够 提高 片上 多 核 处 理 器 的 性 能 : (1) 增加 更 多 的 处 理 器 核 ; (2) 增加 更 多 
的 共享 [2 cache。 基 础 芯片 上 有 3 个 处 理 器 核 和 9 个 I2 cache bank，12 cache 的 大 小 可 以 通过 添加 
cache bank 来 逐渐 增 大 ， 并 且 每 个 cache bank 的 面积 都 是 处 理 器 核 面积 的 3 倍 ,我 们 已 知 如 下 内 容 : 
(a) 工作 负载 的 60% 可 充分 并 行 ， 其 余 的 不 能 ; 
(b) 在 四 处 理 器 核 和 四 cache bank 的 基本 配置 下 ， 由 于 12 失效 而 造成 的 处 理 器 核 阻塞 时 间 占 每 个 
处 理 器 核 执行 时 间 的 30% ; 
(c) 为 了 保持 相同 的 命中 率 ， 每 个 处 理 器 核 共享 L2 cache 的 数量 应 保持 为 常数 ; 
(d) 仿真 模拟 显示 ，L2 的 失效 率 随 着 每 个 处 理 器 核 大 小 的 平方 根 而 下 降 。 我 们 推测 即 每 个 处 理 器 
核 的 阻塞 时 间 也 将 随 着 每 个 处 理 器 核 大 小 的 平方 根 下 降 。 
假定 你 所 在 的 公司 已 经 获得 了 新 的 技术 来 构建 大 型 芯片 ， 从 而 使 下 一 代 芯 片 的 面积 是 目前 芯 
片面 积 的 4 倍 ， 用 以 放置 更 多 的 处 理 器 核 和 IL2 cache。 根 据 你 所 知道 的 内 容 ， 你 会 提出 怎样 的 最 好 
“初步 ”设计 ? 设计 的 特征 具体 由 处 理 器 核 的 数量 和 L2 cache bank 的 数量 来 描述 ， 它 们 可 以 是 任何 
整数 。 设 计 应 包含 在 新 的 芯片 中 ， 试 评估 采用 新 的 芯片 面积 的 最 好 设计 所 带 来 的 加 速 比 。 
8. 10 ”本 题 是 在 共享 L2 cache 的 CMP 上 ， 研 究 维护 Ll cache 之 间 一 致 性 的 目录 蔡 换 组 织 形式 ， 以 下 是 已 
知 的 架构 信息 : 
。 CMP 拥有 8 个 处 理 器 核 和 8 个 L2 cache bank， 它 们 之 间 通 过 交叉 开关 互 连 ; 
e IT2 cache 的 每 个 bank 是 3MB 大 小 的 12 路 组 相 联 ; 
e 每 个 处 理 器 核 都 有 一 级 指令 cache。 一 级 指令 cache 是 直接 映射 的 ， 大 小 为 32KB; 
。 每 个 处 理 器 核 都 有 一 级 数据 cache。 一 级 数据 cache 是 4 路 组 相 联 的 ， 大 小 为 64KB; 
e。 所 有 cache 中 块 的 大 小 都 是 64B; 
。 内 存 的 大 小 是 4GB。 
基于 上 述 数据 ， 试 比较 与 共享 L2 cache 相关 的 维护 LI 数据 cache 间 一 致 性 的 3 个 目录 组 织 形 
式 。 假 设 指令 是 不 可 修改 的 ， 可 以 缓存 在 共享 L2 cache 中 ,但 不 会 在 数据 cache 中 缓存 。3 个 目录 
分 别 是 : 
。 存在 标志 向 量 目录 ; 
。 包含 Ll 缓存 目录 (标识 位 加 状态 位 ) 的 工 1- mp 目录 ; 
。 图 8-12 所 示 的 LI-map 目录 结构 。 
对 它们 进行 比较 ， 分 别 计算 每 种 情况 下 目录 位 的 总 数 。 
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量化 评估 


9.1 概述 


现代 计算 机 系统 集成 了 越 来 越 多 的 器 件 和 功能 ， 这 使 得 其 复杂 度 急 剧 增加 。 对 计算 机 体系 
结构 研究 者 来 说 ， 在 整个 系统 设计 周期 中 ， 软 件 模拟 是 用 来 评估 新 创意 和 探索 设计 空间 的 极其 
重要 的 工具 。 相 比 于 硬件 原型 系统 和 分 析 建 模 ， 软 件 模拟 实现 了 精度 、 成 本 、 灵 活性 和 可 靠 性 
之 间 更 好 的 平衡 。 由 于 当前 微 处 理 器 设计 复杂 度 的 持续 增加 以 及 生产 成 本 的 急剧 碳 升 ， 计 算 机 
体系 结构 模拟 已 变 得 至 关 重 要 。 

软件 模拟 在 计算 机 体系 结构 研究 和 设计 过 程 中 无 处 不 在 ， 它 在 很 大 程度 上 影响 了 研究 与 设 
计 的 生产 率 ， 主 要 体现 在 两 个 层面 : (1) 开发 模拟 器 所 花费 的 时 间 和 精力 ; (2) 在 模拟 器 上 
运行 代表 性 基准 测试 程序 的 时 间 开 销 。 微 处 理 器 片上 集成 密度 的 快速 增长 为 架构 师 提 供 了 充足 
的 片上 资源 ， 借 此 可 以 设计 更 复杂 的 系统 结构 以 提高 其 计算 能 力 。 此 外 ， 功 耗 和 可 靠 性 也 已 经 
成 为 关键 的 设计 约束 ， 在 模拟 器 开发 中 ， 要 想 构 建 一 个 能 够 帮助 设计 人 员 在 一 个 统一 框架 下 权 
衡 性 能 、 功 耗 以 及 可 靠 性 的 模拟 基础 架构 平台 ， 是 需要 大 量 成 本 和 时 间 的 。 设 计 这 样 一 个 复杂 
的 模拟 基础 架构 的 另 一 个 直接 后 果 是 导致 模拟 速度 变 慢 ， 进 而 会 增加 每 次 设计 探索 所 需 的 时 
间 。 随 着 片上 多 处 理 器 时 代 的 到 来 ， 模 拟 速度 变 慢 的 问题 变 得 更 加 严重 。 当 前 ， 用 单线 程 来 模 
拟 核 数 不 断 增长 的 CMP 系统 方法 是 难以 扩展 ， 也 难以 持续 。 如 果 还 像 过 去 模拟 单 核 系统 一 样 
继续 用 串 行 方式 模拟 CMP 系统 ， 那 么 模拟 所 需 的 时 间 必 然 会 急剧 增长 。 认 识 到 这 个 问题 的 重 
要 性 后 ， 目 前 已 经 有 一 些 加 快 模拟 速度 以 及 更 有 效 的 系统 建 模 方法 ， 本 章 的 主要 目标 就 是 介绍 
各 种 模拟 方法 ， 并 探索 加 速 模拟 的 主要 途径 。 

本 章 主 要 介绍 针对 计算 机 系统 设计 架构 解决 方案 进行 有 效 量化 评估 的 方法 。 计 算 机 系统 设 
计时 需要 考虑 一 些 实际 约束 ， 例 如 芯片 面积 、 功 耗 、 散 热 以 及 可 靠 性 等 ， 大 多 数 的 创新 解决 方 
法 都 是 在 不 同 的 约束 之 间 进 行 权衡 。 因 此 ， 系 统 架 构 师 的 目标 是 了 解 如 何在 满足 特定 约束 条 件 
(如 成 本 ) 的 同时 ， 最 好 地 实现 所 期 望 的 性 能 、 功 耗 、 散 热 以 及 可 靠 性 目标 。 模 拟 也 需要 考虑 
类 似 的 折 中 ， 目 前 已 经 有 很 多 的 模拟 方法 ， 但 每 一 种 方法 都 需要 考虑 模拟 速度 和 模拟 精度 的 
折 中 。 

本 章 我 们 首先 介绍 模拟 的 一 些 分 类 ， 模 拟 器 可 以 从 不 同 的 维度 进行 分 类 : 用 户 级 模拟 器 与 
全 系统 模拟 器 ; 功能 模拟 器 与 时 钟 精确 模拟 器 ;trace 驱动 模拟 器 与 执行 驱动 模拟 器 ; 等 等 。 注 
意 上 面 这 些 分 类 都 是 正 交 的 ， 我 们 可 以 从 上 面 的 每 个 分 类 维度 中 选择 一 些 组 件 进行 集成 ， 从 而 
构成 一 个 完整 的 模拟 器 。 目 前 有 两 种 主要 的 模拟 器 集成 方法 : 时 序 优先 和 功能 优先 。 本 章 对 这 
两 种 方法 进行 了 详细 的 论述 ， 以 突出 它们 的 相对 优点 。 模 拟 器 可 能 是 单线 程 的 ， 也 可 能 是 多 线 
程 的 ， 在 单线 程 模拟 器 中 ， 只 存在 一 个 宿主 机 线程 用 来 运行 所 有 模拟 任务 。 考 虑 到 CMP 系统 
已 经 非常 普及 ， 接 下 来 也 将 介绍 并 行 模拟 ， 在 并 行 模拟 中 模拟 器 本 身 是 多 线程 的 ， 每 个 模拟 器 
线程 模拟 目标 处 理 器 核 的 一 个 子 集 ， 或 者 是 模拟 行为 的 一 个 子 集 。 我 们 将 介绍 一 些 采 用 不 同 同 
步 机 制 的 并 行 模拟 方法 ,这些 同 步 机 制 需 要 在 精度 和 速度 上 进行 折 中 ， 通常 是 牺牲 一 定 的 模拟 
精度 来 换取 更 快 的 模拟 速度 。 

由 于 对 系统 体系 结构 的 模拟 速度 很 慢 ， 要 想 在 当前 宿主 机 上 完整 运行 最 新 的 基准 测试 程序 
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已 经 变 得 越 来 越 困难 ， 因 此 ， 出 现 了 基于 采样 的 技术 ， 它 能 够 选取 出 最 能 代表 整个 基准 测试 程 
序 执行 特征 的 一 个 小 的 执行 片段 。 
模拟 的 出 发 点 都 是 对 我 们 感 兴趣 的 某 个 指标 进行 量化 ， 比 如 目标 机 上 运行 负载 时 的 CPI 的 
值 。 但 仅仅 获得 某 个 指标 的 量化 值 是 不 够 的 ， 这 只 是 系统 设计 的 第 一 步 ， 接 下 来 需要 理解 在 不 同 
负载 特征 刻画 下 所 观测 到 的 行为 背后 的 原因 ， 对 负载 特征 的 刻画 使 得 设计 人 员 可 以 理解 感 兴趣 的 负 
载 与 负载 所 运行 的 目标 系统 之 间 的 相互 作用 。 本 章 最 后 将 对 负载 特征 刻画 的 方法 进行 简要 的 介绍 。 
这 一 章 涉及 大 量 的 工具 ， 这 些 工 具 的 详细 介绍 可 以 在 网 上 进行 查阅 ， 本 书 网 站 上 给 出 了 参 
考 列表 。 
本 章 的 主要 内 容 如 下 : 
。9.2 节 介绍 模拟 器 的 分 类 方法 __ 用 户 级 模拟 和 全 系统 模拟 ; 功能 模拟 和 时 钟 精确 模 
拟 ; trace 驱动 模拟 、 执 行 驱动 模拟 和 直接 执行 模拟 。 
。 9.3 节 介 绍 如 何在 一 个 模拟 器 中 集成 多 种 模拟 方法 。 
。 9.4 节 介 绍 模拟 多 处 理 器 目标 系统 的 两 种 方法 一 一 单线 程 多 处 理 器 模拟 和 多 线程 多 处 
理 器 模拟 。 
。 9.5 节 介 绍 功 耗 和 热量 模拟 。 
。 9.6 节 介绍 采样 加 速 模拟 的 方法 ， 包 括 SimPoint 和 系统 随机 采样 方法 。 
。 9.7 节 介绍 用 于 理解 系统 架构 与 负载 之 间 相 互 作用 的 负载 特征 刻画 。 


9.2 模拟 器 分 类 


计算 机 体系 结构 模拟 通常 包含 两 个 方面 : 模拟 器 和 基准 测试 程序 。 模拟 器 模拟 目标 机 的 主 
要 特征 或 行为 ， 根 据 不 同 的 设计 目标 和 约束 ,在 具有 不 同 粒度 和 精度 的 级 别 上 对 目标 处 理 器 进 
行 模拟 。 基 准 测试 程序 是 一 组 在 目标 处 理 器 上 运行 的 程序 ， 用 来 评估 目标 机 的 一 个 或 多 个 组 
件 。 借 助 于 准确 定义 的 基准 测试 程序 ， 可 以 公正 地 对 各 种 体系 结构 或 结构 特征 进行 比较 。 设 计 
和 使 用 计算 机 体系 结构 模拟 器 需要 在 较 高 的 模拟 精度 、 较 快 的 模拟 速度 以 及 较 低 的 开发 难度 等 
不 同 目标 上 进行 权衡 ， 而 这 些 目标 往往 是 相互 冲突 的 ,尽管 模拟 工具 开发 人 员 对 这 些 目标 都 很 
关注 ， 但 没有 哪个 模拟 器 可 以 同时 满足 这 些 目标 ， 计 算 机 架构 师 必 须 对 目标 进行 优先 级 区 分 ， 
以 便 更 好 地 选择 相应 的 模拟 工具 。 而 模拟 器 可 以 根据 它们 的 模拟 内 容 和 模拟 粒度 进行 分 类 。 


9. 2. 1 用 户 级 模拟 器 和 全 系统 模拟 器 


处 理 器 在 现代 计算 机 系统 中 扮演 着 重要 角色 ,并且 其 结构 复杂 ， 因 此 处 理 器 成 为 计算 机 体 
系 结构 研究 和 设计 的 首要 目标 。 用 户 级 模拟 器 注重 模拟 处 理 器 的 系统 微 架 构 ， 而 不 考虑 一 些 系 
统 组 件 ， 如 协 处 理 器 和 IO 设备 。 基 准 测试 程序 只 模拟 用 户 代 码 ， 并 在 模拟 器 上 运行 。 当 基准 
测试 程序 需要 访问 并 未 进行 模拟 的 系统 资源 (如 了 O 设 备 ) 时 ， 我 们 只 对 会 影响 资源 分 配 的 那 
部 分 架构 进行 简单 功能 模拟 ,而 忽略 微 架 构 上 的 影响 。 例 如 ， 如 果 系 统 调用 更 新 架构 寄存 器 ， 、 
该 寄存 器 更 新 是 在 模拟 过 程 中 进行 的 ， 但 是 系统 调用 的 过 程 被 视 为 黑 盒 ， 模 拟 器 中 无 法 测量 这 
一 过 程 中 对 系统 微 架构 的 影响 。 

虽然 用 户 级 模拟 器 忽略 了 一 些 重要 的 系统 影响 ， 但 仍然 能 够 运行 实际 的 应 用 程序 ， 它 拥有 
接近 完整 的 工作 环境 ， 并 且 尽 可 能 忠实 地 维持 负载 的 真实 性 。 在 假设 某 些 忽 略 不 会 损害 模拟 结 
果 可 信 度 的 基础 上 ， 模 拟 器 可 以 只 关注 处 理 器 设计 ， 而 选择 性 地 忽略 一 些 子 系统 的 模拟 方法 来 
简化 建 模 的 工作 量 。 在 大 多 数 情况 下 ， 操 作 系统 的 活动 是 被 忽略 的 ， 因 此 ， 用 户 级 模拟 器 有 时 
也 会 产生 一 些 无 法 接受 的 误差 。 然 而 这 种 设计 相对 简单 ， 减 少 了 开发 工作 量 ， 并 且 容 易 使 用 ， 
这 些 特点 在 计算 机 体系 结构 领域 都 是 非常 有 了 吸引 力 的 。 





量化 评估 345 


全 系统 模拟 器 模拟 整个 计算 机 系统 ， 包 括 CPU、I/O、 磁 盘 以 及 网 络 等 。 它 们 能 够 启动 和 
运行 不 加 修改 的 现 有 操作 系统 ， 因 此 在 模拟 过 程 中 比较 容易 捕获 工作 负载 和 整个 系统 之 间 的 交 
互 。 由 于 应 用 的 驱动 ， 高 端 计算 已 经 从 传统 的 科学 工程 应 用 扩展 到 新 兴 的 信息 处 理应 用 ， 例 如 
数据 库 、 决 策 支持 以 及 Web 搜索 引擎 等 ， 与 此 同时 ， 全 系统 模拟 器 也 变 得 越 来 越 重 要 。 上 述 
商业 应 用 存在 更 多 的 系统 活动 ， 在 模拟 过 程 中 忽视 这 些 活动 将 会 导致 各 项 观测 指标 出 现 明显 的 
误差 。 例 如 事务 处 理工 作 负载 有 20% ~30% 的 时 间 是 执行 在 操作 系统 模式 下 。 此 外 ， 应 用 在 操 
作 系统 模式 下 的 行为 与 在 用 户 模式 下 的 行为 是 完全 不 同 的 ， 因 此 ， 对 商业 应 用 来 说 ， 真 实 模拟 
所 有 系统 组 件 是 十 分 必要 的 。 

图 9-1 从 概念 上 给 出 了 用 户 级 模拟 器 与 全 系统 模拟 器 的 区 别 。 从 图 中 可 以 看 出 ， 全 系统 模 
拟 器 可 以 运行 目标 操作 系统 ， 且 在 该 操作 系统 上 ， 应 用 程序 可 以 在 模拟 的 目标 机 器 上 直接 执行 
系统 调用 。 而 在 用 户 级 模拟 器 中 ， 基 准 测试 程序 发 起 的 所 有 系统 服务 都 需要 绕 过 模拟 器 ， 而 由 
底层 宿主 机 的 操作 系统 来 处 理 。 


系统 调用 


系统 调用 





图 9-1 用 户 级 模拟 器 (a) 与 全 系统 模拟 器 (b) 


现在 已 经 有 很 多 基于 不 同 设计 目的 的 用 户 级 模拟 器 ， 比 如 SimpleScalar、Asim、MINT、 
RSIM 、Zesto 、Shade 等 ， 这 些 工 具 用 来 评估 诸如 IPC、 分 支 预测 准确 度 、cache 命中 率 等 微 架构 
性 能 指标 。SimpleScalar 由 于 其 灵活 性 和 易于 获取 而 被 广泛 使 用 。 从 历史 上 看 ， 性 能 一 直 是 体 
系 结构 评估 中 最 重要 的 评估 指标 ， 然 而 近年 来 ， 人 们 开始 把 更 多 的 研究 兴趣 放 在 功 耗 和 能 量 
上 , 已 经 有 一 些 用 户 级 的 功 耗 和 能 量 评估 工具 开发 出 来 ， 例 如，Watteh 就 是 在 SimpleScalar 的 
基础 上 增加 了 体系 结构 级 别 功 耗 评估 的 扩展 ， 它 会 在 每 个 周期 调用 各 活动 单元 的 功 耗 模型 以 计 
算 并 记录 所 消耗 的 功 耗 ， 其 他 体系 结构 级 的 功 耗 评估 工具 还 有 SimplePower 和 TEMPEST。 


9. 2.2 功能 模拟 器 和 时 钟 精确 模拟 器 


本 小 节 介绍 一 种 基于 模拟 的 细节 程度 进行 正 交 分 类 的 方法 。 最 简单 的 模拟 器 仅仅 对 功能 进 
行 模拟 ， 比 如 只 模拟 处 理 器 中 每 条 指令 的 功能 ， 而 不 考虑 任何 微 架构 上 的 细节 模拟 ,这 种 类 型 
的 模拟 器 通常 用 于 构建 更 复杂 的 模拟 器 ， 在 对 目标 处 理 器 进行 详细 微 架 构 模 拟 之 前 ， 其 指令 集 
架构 (ISA) 就 是 通过 这 种 模拟 器 正确 模拟 的 。 这 种 方法 将 目标 处 理 器 的 指令 集 逻 辑 / 功 能 建 
模 和 微 架 构建 模 进行 了 拆 分 。 

时 钟 精 确 模拟 器 可 以 模拟 所 有 微 架 构 模 块 的 细节 ， 它 们 不 仅 仿真 了 各 种 微 架构 模块 的 功 
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能 ， 通常 还 会 跟踪 记录 对 应 的 时 间 ， 正 是 由 于 可 以 对 时 间 进 行 跟踪 记录 ， 这 类 模拟 器 可 以 提供 
性 能 结果 ， 因 此 可 以 用 来 对 不 同 设计 选择 进行 评估 。 为 了 使 模拟 器 操作 正确 ， 模 拟 器 设计 开发 
人 员 必 须 对 微 架 构 的 设计 进行 详细 编码 ， 并 为 模拟 器 提供 时 序 输入 信息 。 为 了 快速 地 评估 设计 
空间 ， 模 拟 器 中 的 大 多 数 微 架构 模块 都 是 参数 化 的 ， 例 如 ，cache 组 件 的 大 小 、 相 联 度 以 及 块 
大 小 等 ， 这 些 参 数 都 可 以 配置 为 用 户 定义 的 值 ， 从 而 允许 设计 空间 探索 各 种 不 同 的 cache 配置 
而 无 需 重新 编译 模拟 器 代码 。 大 多 数 模拟 器 都 使 用 一 个 专门 的 目标 处 理 器 配置 文件 作为 模拟 器 
的 输入 ， 基 准 测试 程序 也 在 目标 机 上 执行 。 

图 9-2 显示 了 功能 模拟 器 和 时 钟 精 确 模拟 器 的 区 别 。 由 于 功能 模拟 器 不 对 任何 微 架构 缓冲 
区 进行 模拟 ， 因 此 它 比 时 钟 精确 模拟 器 要 快 得 多 。 功 能 模拟 器 不 深入 模拟 目标 系统 ， 它 可 以 提 
供 一 些 简单 的 统计 信息 ， 例 如 指令 数 或 静态 /动态 指令 比例 等 。 与 之 相反 ， 时 钟 精确 模拟 器 则 
提供 了 更 多 细节 信息 ， 更 有 助 于 发 现 目标 机 的 性 能 瓶颈 。 


指令 序列 





简单 度量 ( 如 指令 数 ) 


复杂 模拟 度量 ( 如 CPI、 失 效率 等 ) 


a) b) 
图 9-2 功能 模拟 器 (a) 与 时 钟 精 确 模拟 器 (b) 


模拟 器 对 目标 处 理 器 的 模拟 精度 与 该 模拟 是 用 户 级 模拟 还 是 全 系统 模拟 是 正 交 的 。 例 如 ， 
SimpleScalar 工具 集 是 由 几 个 拥有 不 同 精度 的 用 户 级 模拟 器 组 成 的 ， 尽 管 这 些 模拟 器 共享 同一 
个 指令 集 ， 但 它们 在 模拟 粒度 和 速度 方面 却 有 不 同 的 侧重 。 在 SimpleScalar 中 ， 微 架构 建 模 与 
功能 模拟 是 相互 分 离 的 ， 功 能 的 正确 性 通过 一 个 机 器 定义 文件 来 提供 ， 该 文件 定义 了 目标 指令 
集 架 构 (JISA) 中 每 条 指令 的 功能 行为 。 例 如 ， 机 器 定义 文件 指定 一 个 加 法 (ADD) 指令 有 两 
个 寄存 器 操作 数 ， 并 在 两 个 寄存 器 内 容 相 加 后 用 结果 更 新 目标 寄存 器 。 如 果 ISA 中 的 某 条 指令 
影响 控制 寄存 器 ， 如 条 件 码 寄存 器 ， 也 可 以 在 机 器 定义 文件 中 指定 。 机 器 定义 文件 在 sim-fast 
中 使 用 ，sim-fast 是 SimpleScalar 模拟 集中 速度 最 快 、 粒 度 最 粗 的 一 个 ,， 它 是 一 种 指令 级 模拟 
器 ， 在 不 考虑 微 架 构 细 节 的 情况 下 模拟 指令 的 执行 。sim-fast 只 跟踪 目标 机 的 系统 结构 状态 ， 


例如 寄存 器 堆 内 容 等 。 模 拟 器 读 取 基 准 测试 程序 中 执行 的 每 条 指令 ， 并 基于 机 器 定义 文件 规范 、 


来 描述 指令 执行 后 对 体系 结构 的 影响 。 

在 SimpleScalar 模拟 集中 的 另 一 个 模拟 器 是 sm-outorder， 它 是 SimpleScalar 工具 集中 模拟 粒 
度 最 细 的 一 个 ， 可 以 模拟 多 级 cache 层次 、 分 支 预 测 、 乱 序 发 射 以 及 时 序 精确 的 执行 。 该 模拟 
器 像 sim-fast 一 样 读 取 每 条 指令 并 完成 指令 的 功能 执行 ,然后 调用 目标 处 理 器 的 一 个 具体 微 架 
构 模 型 来 计算 时 间 。 例 如 ， 当 执行 load 指令 时 ， 功 能 模拟 器 首先 访问 目标 存储 ， 并 将 正确 的 
数据 存 入 目标 寄存 器 ， 然 后 时 钟 精确 模拟 器 模拟 整个 内 存 层次 结构 ， 首 先 访问 Ll cache， 
Ll cache 模 拟 模块 只 记录 地 址 标签 (tag) 信息 ， 而 不 保存 真实 数据 ,真实 数据 是 在 功能 模拟 阶 
段 直 接 从 模拟 内 存 中 访问 的 。 若 Ll cache 失效 ， 即 访 存 地 址 与 任何 Ll cache 的 地 址 标签 都 不 匹 


量化 评 信 347 


配 ， 则 继续 往 下 访问 L2 cache， 最 终 所 要 访问 的 数据 可 能 需要 到 内 存 中 才 命 中 。 模 拟 器 也 会 对 
执行 时 间 进 行 跟踪 记录 ， 这 个 时 间 包 括 访问 Ll cache 的 周期 数 、 访 问 L2 cache 的 周期 数 以 及 最 
终 访 问 内 存 的 周期 数 。 除 了 cache 访问 外 ，sim-outorder 还 考虑 了 资源 约束 的 影响 ， 例 如 ，cache 
是 否 是 非 阻塞 的 、 层 次 化 的 cache 中 每 个 层次 的 读 端口 数量 等 。 在 这 种 模拟 器 中 ， 模 拟 详细 程 
度 的 不 同 主要 是 取决 于 我 们 在 微 架构 模型 设计 和 开发 工作 中 所 付出 的 努力 。 

微 架 构 配 置 参 数 定义 了 目标 处 理 器 内 每 个 主要 部 件 的 具体 结构 ， 其 中 比较 重要 的 参数 包 
括 : 取 指 宽度 ， 发 射 宽度 ， 退 出 宽度 ， 分 支 预测 器 的 类 型 和 大 小 ，cache 级 数 ， 每 级 cache 的 配 
置 与 大 小 ， 功 能 单元 的 数量 ， 重 排序 缓冲 区 的 大 小 。 其 中 一 些 参 数 只 改变 结构 的 大 小 或 延迟 ， 
而 另 一 些 参 数 改变 微 架 构 部 件 的 功能 行为 。 在 这 种 情况 下 ， 实 现 设计 人 员 评 估 时 感 兴趣 的 那些 
微 架构 功能 是 十 分 必要 的 。 默 认 情 况 下 ，sim- outorder 实现 了 多 个 可 供 蔡 换 的 微 架构 块 组 件 ， 
其 中 分 支 预测 器 就 是 一 个 很 好 的 例子 ， 它 的 每 个 预测 器 都 有 不 同 的 功能 行为 。 例 如 ，SimpleS- 
calar 中 提供 了 不 同 的 分 支 预测 器 供 选 择 ， 包 括 2-bit 分 支 预测 器 、 两 级 分 支 预测 器 以 及 混合 分 
支 预测 器 等 。 配 置 文件 来 决定 运行 时 实例 化 哪 一 个 分 支 预测 器 ， 以 及 分 支 预测 器 的 大 小 。 如 果 
设计 人 员 对 评估 新 的 分 支 预测 器 感 兴趣 ， 那 么 需要 在 sim- outorder 源 代码 中 添加 新 预测 器 对 应 
的 模拟 代码 。 

sim-fast 和 sim-outorder 分 别 是 功能 模拟 器 和 时 钟 精确 模拟 器 的 代表 ， 此 外 还 有 一 些 模拟 方 
法 介 于 二 者 之 间 。sim-cache 就 是 这 样 一 个 例子 ， 它 由 sim-fast 扩展 而 来 。 在 sim-cache 中 ， 每 条 
指令 都 像 sim-fast 一 样 在 功能 模式 中 执行 ， 但 每 当 执行 到 访 存 指令 时 ，ceache 模拟 模块 就 会 被 调 
用 ， 它 对 cache 是 否 命 中 进行 跟踪 统计 。 如 果 sim- cache 配置 为 模拟 一 个 指令 cache， 那 么 目标 
处 理 器 取 指 每 条 指令 时 都 需要 调用 指令 cache 模拟 模块 。 同 样 ，sim-branch 只 模拟 分 支 预测 器 。 
借助 于 这 些 粗 粒 度 模 块 组 成 的 模拟 工具 集 ， 设计 人 员 可 以 更 快 地 在 特定 微 架 构 设 计 空间 中 完成 
探索 和 筛选 ,一 旦 设计 选择 降 到 可 控 的 范围 内 ， 就 可 以 采用 更 详细 、 速 度 更 慢 、 类 似 sim- out- 
order 这 样 的 时 钟 精确 模拟 。 这 种 混合 模拟 的 方法 在 几乎 不 影响 模拟 结果 准确 度 和 精度 的 前 提 
下 提高 了 模拟 速度 。 

全 系统 模拟 器 考虑 了 它 与 操作 系统 交互 的 影响 ,但 它 可 能 没有 对 微 架 构 的 全 部 细节 进行 模 
拟 。 例 如 ，Sim0S 是 一 个 全 系统 模拟 器 ， 它 在 指令 集 级 别 对 应 用 程序 执行 与 操作 交互 进行 了 模 
拟 ， 在 这 个 抽象 级 别 ， 模 拟 速度 足够 快 ， 因 此 可 以 通过 硬件 性 能 计数 器 来 测量 运行 在 真实 机 器 
上 的 实际 大 小 工作 负载 的 执行 统计 数据 。 这 种 类 型 的 模拟 器 在 以 调试 为 目的 的 系统 软件 开发 过 
程 中 也 是 很 有 价值 的 ， 它 为 系统 软件 开发 人 员 提 供 了 一 个 在 速度 和 硬件 细节 之 间 进 行 平衡 的 良 
好 方法 。 另 一 个 大 家 所 熟知 的 全 系统 模拟 器 是 Simics ，Simics 是 一 个 工业 级 的 全 系统 模拟 器 ， 
它 可 以 启动 不 加 修改 的 操作 系统 ，Simics 的 底层 处 理 器 模型 可 以 支持 多 种 指令 集 架构 ， 例 如 
Sparc 、x86 和 IA-64 等 ， 它 几乎 实现 了 所 有 的 功能 指令 ， 甚 至 包括 那些 在 大 多 数 基准 测试 程序 
中 很 少 使 用 的 指令 ， 因 此 ， 它 可 以 启动 不 加 修改 的 操作 系统 ， 并 且 可 以 执行 任何 需要 全 系统 支 
持 的 复杂 工作 负载 。 

全 系统 模拟 器 可 以 结合 乱 序 微 架构 模型 来 增强 其 功能 。 例 如 ，PHARMSim 将 Sim0S 和 Sim- 
pleMP 进行 了 结合 ， 是 SimpleScalar 的 多 处 理 器 扩展 。 另 一 个 此 类 实验 工具 是 SoftWatt， 它 在 Si- 
m05 的 基础 上 ， 通 过 增加 MIPS 微 架 构 模 型 来 进行 功 耗 预 测 。 


9. 2. 3 trace 驱动 模拟 器 、 执 行 驱动 模拟 器 和 直接 执行 模拟 器 


处 理 器 模拟 器 需要 对 运行 在 目标 机 上 的 基准 测试 程序 的 指令 执行 过 程 进行 模拟 。 有 两 种 获 
取 指 令 来 驱动 模拟 器 的 方式 : trace 驱动 模拟 和 执行 驱动 模拟 。 
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trace 驱动 模拟 

在 trace 驱动 模拟 中 ,首先 基准 测试 程序 在 指令 集 架 构 兼 容 的 处 理 器 (或 模拟 器 ) 上 执行 ， 
这 个 兼容 处 理 器 不 一 定 要 和 目标 机 完全 一 样 。 当 基准 测试 程序 执行 时 ,把 每 条 指令 记录 到 一 个 
trace 文件 ， 这 是 通过 实际 机 器 上 的 硬件 监控 或 模拟 器 〈 这 种 模拟 器 也 称 为 trace 生成 器 ) 来 实 
现 的 。 收 集 的 trace 信息 可 能 是 基准 测试 程序 的 完整 执行 过 程 ， 也 可 能 是 基准 测试 程序 中 设计 
人 员 感 兴趣 的 一 小 部 分 ， 并 且 通 常 后 者 更 为 常见 。 在 开始 trace 收集 前 ， 处 理 器 的 整个 架构 状 
态 记 录 到 trace 文件 中 ， 在 trace 收集 阶段 ， 可 以 使 用 一 些 trace 收集 的 基础 工具 (例如 用 户 级 软 
件 trace 生成 器 ) 来 记录 系统 调用 ， 在 这 种 情况 下 ，trace 生成 器 可 能 仅仅 记录 系统 调用 执行 前 
后 的 系统 架构 状态 。 与 之 类 似 , 当 记录 trace 过 程 中 遇 到 中 断 事 件 时 ，trace 生成 器 可 以 记录 中 
断 前 后 的 系统 架构 状态 。 因 此 ， 每 个 trace 文件 就 是 一 系列 trace 记录 的 集合 ， 再 加 上 一 些 系统 
架构 状态 信息 。 在 多 处 理 器 或 CMP 上 的 执行 trace 中 ,来 自 不 同 线程 的 trace 记录 交叉 存储 在 同 
一 个 trace 文件 中 ， 其 存储 次 序 与 它们 在 trace 生成 器 中 执行 时 所 发 生 的 次 序 一 致 。 

一 旦 收集 完成 ，trace 就 被 输入 到 时 钟 精确 模拟 器 ， 并 在 模拟 器 中 使 用 详细 的 微 架 构 模 型 
对 来 自 trace 文件 的 每 条 指令 进行 模拟 。 时 钟 精确 模拟 器 和 用 户 级 模拟 器 首先 载 人 trace 文件 中 
与 系统 架构 状态 相关 的 信息 ， 然 后 开始 详细 执行 每 条 指令 ， 当 时 钟 精确 模拟 器 遇 到 无 法 模拟 的 
系统 调用 或 中 断 时 ， 它 只 是 简单 地 从 trace 文件 中 读 取 系统 调用 之 后 的 系统 架构 状态 ， 并 更 新 
自己 的 状态 内 容 ， 这 样 就 模拟 了 目标 机 上 系统 调用 在 系统 架构 上 的 影响 。 

trace 驱动 模拟 的 一 个 缺点 是 ， 这 种 模式 下 时 钟 精确 模拟 器 无 法 准确 量化 分 支 预测 的 影响 。 
trace 驱动 模拟 器 无 法 模拟 分 支 预测 错误 路 径 ， 因 为 trace 信息 本 身 就 不 包括 任务 错误 路 径 上 的 
指令 。 因 此 ，trace 驱动 的 时 钟 精确 模拟 器 只 能 简单 地 加 上 一 个 分 支 预测 失败 开销 ， 而 不 是 真正 
地 对 错误 路 径 进行 模拟 。 此 外 ， 在 模拟 大 规模 工作 负载 时 ，trace 文件 的 大 小 也 是 一 个 需要 重点 
关注 的 问题 。 

另 一 方面 ，trace 驱动 模拟 器 也 有 很 多 优点 。 首 先 ,， 它 只 需要 收集 一 次 trace， 就 可 以 重复 
利用 收集 到 的 信息 对 各 种 微 架 构 配 置 进行 模拟 。 此 外 ， 也 可 以 让 trace 生成 器 在 'trace 收集 的 同 
时 记录 一 些 体系 结构 信息 ， 从 而 简化 时 钟 精确 模拟 器 的 设计 。 在 记录 trace 时 ， 当 碰 到 目标 架 
构 下 的 某 条 指令 需要 与 多 个 微 架 构 组 件 进 行 复 杂交 互 时 ，trace 生成 器 可 以 将 执行 完 该 指令 后 
对 系统 架构 的 影响 记录 下 来 ， 这 样 ， 在 后 续 模 拟 中 ， 当 时 钟 精确 模拟 器 磁 到 这 种 复杂 指令 时 ， 
并 不 需要 完全 真实 地 再 现 该 指令 执行 的 过 程 ， 而 是 可 以 简单 忽略 掉 ， 但 是 通过 读 取 记录 该 指令 
对 系统 架构 影响 的 trace 文件 来 更 新 自己 的 系统 架构 状态 。 最 后 ，trace 文件 可 以 是 任何 模拟 器 
组 件 的 一 个 固定 输入 ， 这 意味 着 即使 我 们 所 研究 的 目标 系统 结构 特征 发 生 了 变化 ， 驱 动 模拟 器 
执行 的 事件 序列 也 始终 不 变 ， 并 且 对 特征 的 评估 不 依赖 于 目标 系统 架构 中 其 他 部 分 的 行为 。 这 
一 点 在 多 处 理 器 系统 模拟 中 也 是 非常 重要 的 ， 多 处 理 器 中 来 自 不 同 线程 指令 动态 交错 执行 可 能 
会 影响 最 终 的 行为 ， 不 同 cache 协议 特性 的 比较 就 是 一 个 例子 。 

目前 已 经 有 很 多 基于 trace 驱动 模拟 技术 的 变 体 ， 比 较 常见 的 一 个 方法 是 在 trace 收集 期 间 ， 
只 记录 访 存 的 地 址 ， 这 种 trace 也 叫 作 内 存 访 问 流 ， 收 集 好 后 的 内 存 访问 流 作为 cache 模拟 器 的 
输入 ， 这 种 cache 模拟 器 只 模拟 微 架 构 特 征 ， 而 不 模拟 具体 的 数据 。 在 使 用 trace 信息 来 研究 存 
储 系统 的 时 候 ，trace 文件 只 包含 基准 测试 程序 的 内 存 访问 流 ， 而 不 保存 目标 系统 架构 状态 。 

执行 驱动 模拟 

执行 驱动 模拟 器 不 依赖 于 trace 文件 ， 而 是 以 基准 测试 程序 作为 模拟 器 的 输入 。 执 行 驱动 
模拟 器 通过 解析 基准 测试 程序 执行 文件 来 加 载 系 统 架 构 状 态 ， 然 后 在 目标 机 上 模拟 基准 测试 程 
序 的 执行 。 除 了 真实 再 现 目标 结构 的 功能 之 外 ， 还 必须 再 现 对 应 的 执行 时 间 。 这 类 模拟 器 必须 
知道 如 何 处 理 指令 集中 每 条 指令 的 执行 时 间 和 具体 功能 ， 哪 怕 这 条 指令 在 基准 测试 程序 的 执行 
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过 程 中 只 出 现 一 次 。 由 于 执行 驱动 模拟 器 将 时 序 和 功能 集成 在 一 起 ， 因 此 开发 起 来 比较 复杂 ， 
但 是 执行 驱动 模拟 器 在 模拟 精度 、 灵 活性 以 及 真实 性 等 方面 都 比 trace 驱动 模拟 器 要 好 。 

直接 执行 模拟 

trace 驱动 模拟 器 和 执行 驱动 模拟 器 在 宿主 机 上 对 目标 系统 的 每 条 指令 都 进行 了 模拟 ， 这 
大 大 降低 了 模拟 速度 。 而 直接 执行 模拟 很 好 地 平衡 了 模拟 精度 和 速度 两 个 方面 ， 它 在 宿主 机 硬 
件 上 直接 执行 基准 测试 程序 中 的 指令 来 兼顾 模拟 精度 和 速度 。 当 指令 直接 在 宿主 机 硬件 上 执行 
时 ， 模 拟 器 不 提供 任何 时 序 相关 的 数据 。 因 此 牺牲 了 一 定 的 精确 度 。 设 计 师 们 要 确定 哪些 目标 
系统 组 件 需 要 详细 模拟 ， 例 如 ， 如 果 设 计 师 只 对 模拟 数据 cache 的 性 能 感 兴趣 ， 那么 除 load/ 
store 指令 外 的 所 有 指令 都 可 以 直接 在 目标 硬件 上 执行 ， 当 基准 测试 程序 中 过 到 load/store 指令 
时 ， 会 调用 存储 层次 模拟 器 来 详细 模拟 存储 层次 的 性 能 。 直 接 执行 模拟 中 ， 要 求 目标 指令 集 架 
构 必 须 和 宿主 机 的 ISA 相同 ， 这 样 基 于 目标 体系 结构 编译 的 基准 测试 程序 才能 在 宿主 机 硬件 上 
运行 。 

在 直接 执行 模拟 中 ， 基 准 测试 程序 的 一 部 分 代码 在 宿主 机 上 执行 ， 另 一 部 分 代码 在 模拟 环 
境 中 执行 。 要 实现 这 种 复杂 的 交互 ， 需 要 对 基准 测试 程序 在 源码 级 或 者 目标 代码 级 进行 插 桩 ， 
当 基 准 测试 程序 执行 到 感 兴趣 的 事件 时 ， 就 会 调用 相应 的 模拟 模块 进行 更 详细 的 模拟 。 我 们 可 
以 借助 编译 器 对 基准 测试 程序 代码 进行 分 析 ， 并 识别 出 所 有 感 兴趣 事件 的 位 置 。 比如 ”为 了 评 
估 数 据 cache 的 性 能 ， 编 译 器 需要 识别 出 所 有 的 load/store 指令 ， 然 后 在 每 条 load/store 指令 之 
前 插入 对 模拟 模块 的 函数 调用 ， 这 些 模拟 模块 可 以 将 访 存 指令 的 有 效 地 址 、 程 序 计 数 器 以 及 任 
何其 他 评估 相关 数据 作为 输入 -= 这样; 当 插 桩 过 的 二 进 制 程序 在 宿主 机 上 执行 时 ， 每 当 执 行 到 
load/store 指令 ， 就 会 调用 相应 的 模拟 模块 执行 。 

插 桩 可 以 在 源码 级 完成 ， 在 没有 源 代码 时 ， 也 可 以 使 用 二 进 制 重 写 工具 对 基准 测试 程序 的 
二 进 制 文件 进行 插 桩 。 现 有 一 些 流行 的 三 进 制 重 写 工 具 ， 比 如 针对 Alpha 指令 集 架 构 的 ATOM 
就 是 一 个 ， 下 面 的 例子 展示 的 是 一 小 段 ATOM 的 插 桩 代码 ， 简 单 说 明了 ATOM 如 何 重 写 二 进 制 
文件 ， 以 使 其 能 够 在 宿主 机 上 直接 模拟 执行 。 


Instrument (int argc, char ** argv ，Obj *obj) 
{ 
Proc *p, Block *b, Inst,*inst; 
for (p = GetFirstOobjProc (obj); p != NULL; p = GetNextProc (p)) { 
for (b = GetFirstBlock (p); b != NULL; b = GetNextBlkc(b)) { 
for (Inst = GetFirstIinst (b); inst != NULL; i = GetNextInst (Inst)) { 
if ((IsInstType (i, InstTypeLoad) || (IsInstType (i, InstTypestore)) { 
AddCallInst (Inst, InstBefore , ‘‘SimulateCache’’'’, EffAddrValue); 


} 


} 

wp. 

ATOM 工具 将 基准 测试 程序 三 进 制 文件 作为 输入 ， 并 使 用 上 面 代码 片段 中 所 示 的 过 程 生成 
插 桩 代码 s 第 一 层 循环 遍历 基准 测试 程序 二 进 制 中 的 每 一 个 过 程 ， 第 二 层 循 环 遍历 给 定 过 程 中 
的 每 一 个 基本 块 ， 第 三 层 (最 内 层 ) 循环 遍历 基本 块 中 的 每 条 指令 ， 因 此 ,这 三 层 循 环 遍 历 
了 基准 测试 程序 中 的 每 一 条 指令 。 上 述 代 码 片段 申 的 让 条 件 语句 对 指令 是 否 是 load 或 store 指 
令 进 行 检查 ， 若 是 load 或 store 指令 ，ATOM 会 在 原始 基准 测试 程序 中 的 内 存 访问 指令 之 前 ， 
插入 一 个 名 为 “SimulateCache” 的 函数 调用 ，SimulateCache 函数 需要 内 存 访问 指令 的 有 效 地 址 
作为 输入 参数 。ATOM 实际 上 生成 了 一 个 新 的 三 进 制 文件 ， 里 面 的 每 次 访 存 操 作 都 会 调用 Simi- 
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ulateCache 函数 。SimulateCache 函数 可 以 是 用 户 定 义 的 任何 cache 模拟 程序 ， 可 以 量化 不 同 
cache 配置 对 基准 测试 程序 性 能 的 影响 。 当 插 桩 过 的 基准 测试 程序 在 宿主 机 上 直接 执行 时 ， 
cache 模拟 函数 也 同步 执行 ， 两 者 结合 构成 了 一 个 直接 执行 模拟 的 形式 。ATOM 提供 了 一 系列 
API 用 来 探测 各 种 架构 状态 ， 例 如 ， 用 户 可 以 在 基准 测试 程序 执行 过 程 中 的 任意 时 刻 检查 指令 
的 类 型 ( 比如 是 load 还 是 store) ， 读 取 寄 存 器 值 或 内 存 内 容 。 

另 一 个 择 桩 工具 的 例子 是 PIN， 这 是 一 个 基于 x86 和 IA64 指令 集 的 二 进 制 插 桩 工具 。AT- 
OM 通过 对 二 进 制 插 桩 的 方式 离线 生成 一 个 新 的 二 进 制 文件 ， 因 此 插 桩 后 的 二 进 制 可 以 直接 在 
宿主 机 硬件 上 运行 。 与 之 相反 ,PIN 使 用 的 是 即时 编译 (just-in-time，JIT) 方法 ， 和 ATONM 一 
样 ，PIN 的 输入 是 基准 测试 程序 二 进 制 以 及 插 桩 程序 ，PIN 的 运行 时 环境 能 够 截获 程序 中 每 个 
基本 块 的 第 一 条 指令 ， 然 后 为 二 进 制 文件 中 的 每 个 基本 块 自动 在 线 生成 新 的 代码 ， 并 写 入 内 存 
的 代码 cache 中。 此后， 处 理 器 直接 从 代码 cache 中 取 指 令 执 行 ， 而 完全 不 会 感知 到 原始 基准 
测试 程序 二 进 制 文件 的 存在 。 内 存 中 的 代码 cache 由 PIN 进行 软件 管理 ， 当 遇 到 在 之 前 执行 阶 
段 翻译 过 的 基本 块 时 ，PIN 可 以 重用 代码 cache 中 的 代码 。 当 基本 块 正 常 执行 、 没 有 进行 模拟 
代码 插 桩 时 ， 基 本 块 对 应 的 JIT 代码 与 原始 的 三 进 制 代码 一 样 。 

通过 二 进 制 代码 插 桩 实现 的 直接 执行 也 有 一 些 额 外 开销 。 当 ATOM 进行 二 进 制 代码 插 桩 
时 ， 揪 桩 代码 本 身 执 行 时 也 需要 占用 一 定 的 寄存 器 ， 这样 ，ATOM 必须 保存 好 插 桩 代码 使 用 的 
所 有 寄存 器 ， 当 插 桩 代码 退出 时 再 将 其 恢复 ; 因此 ， 直 接 执行 期 间 会 产生 大 量 的 寄存 器 分 配 开 
销 。 而 在 PIN 中 ,代码 插 桩 是 在 线 完成 的 ， 它 可 以 对 代码 进行 分 析 从 而 获知 在 代码 插 桩 前 ， 哪 
些 寄存 器 是 活路 的， 哪些 是 挂 起 的 ，JIT 编译 器 先 选择 那些 挂 起 的 寄存 器 给 插 桩 代码 使 用 。 动 
态 插 桩 本 质 上 提供 了 更 多 的 运行 时 可 见 性 ， 因 此 可 以 更 好 地 实现 代码 优化 ; 另 一 方面 ，PIN 采 
用 动态 插 桩 的 方法 ， 使 得 对 同一 份 代码 序列 ， 可 能 产生 多 次 JIT 编译 的 开销 ， 而 ATOM 每 次 重 
编译 时 只 有 一 次 编译 开销 ， 并 且 没 有 额外 的 运行 时 编译 开销 。 


9. 3 模拟 器 的 集成 


根据 前 面 的 介绍 可 以 看 出 ， 功 能 模拟 器 是 最 容易 实现 的 ， 但 它 在 目标 设计 的 性 能 瓶颈 分 析 
中 只 能 提供 非常 有 限 的 作用 。 而 执行 驱动 模拟 器 由 于 需要 正确 模拟 执行 的 功能 和 时 序 ， 因 此 开 
发 工作 量 很 大 。 通 过 精心 规划 ， 集 成 现 有 的 工具 是 加 速 新 模拟 器 开发 的 有 效 方法 ， 这 种 方法 可 
以 显著 提高 现 有 工具 的 模拟 能 力 ， 并 避免 从 头 开始 开发 一 个 新 的 模拟 器 。 特 别 是 当 现 有 的 工具 
之 间 功 能 互补 时 ， 对 它们 的 集成 就 更 有 意义 。 一 种 常见 的 模拟 器 集成 方法 是 将 时 钟 精确 模拟 器 
和 全 系统 模拟 器 集成 在 一 起 。 


9. 3.1 功能 优先 模拟 器 的 集成 


我 们 之 前 介绍 过 ， 时 钟 精确 模拟 器 是 对 系统 微 架 构 的 细节 进行 模拟 ， 而 全 系统 模拟 器 则 是 
在 功能 级 别 模拟 整个 系统 。 为 了 获得 可 以 对 系统 微 架 构 细 节 以 及 时 序 信 息 进行 模拟 的 全 系统 模 
拟 器 ， 方 法 之 一 就 是 集成 上 述 两 类 模拟 器 ， 这 种 集成 方法 称 为 功能 优先 模拟 。 在 该 方法 中 ,全 
系统 功能 模拟 器 上 运行 基准 测试 程序 ， 并 生成 指令 序列 ， 功 能 模拟 器 维护 目标 机 架构 状态 的 一 
个 副本 ， 比 如 寄存 器 文件 的 拷贝 ， 在 每 条 指令 执行 后 ， 更 新 其 架构 状态 ， 然 后 指令 输入 给 模拟 
器 的 时 序 部 分 ， 时 序 部 分 可 以 执行 系统 微 架构 模拟 并 记录 时 序 信 息 。 时 序 模拟 器 也 需要 维护 一 
个 架构 状态 的 副本 ， 用 于 其 自身 的 时 钟 精确 模拟 。 

时 序 模拟 器 对 流水 线 和 诸如 cache、 分 支 预 测 器 这 样 的 微 架 构 进行 详细 模拟 ， 从 功能 模拟 
器 接收 到 的 每 条 指令 ， 时 序 模拟 器 都 会 模拟 其 执行 过 程 ， 并 记录 指令 在 流水 线 中 由 于 控制 相 
关 、 数据 相关 和 结构 相关 所 消耗 的 时 间 。 时 序 模拟 器 还 负责 所 有 与 预测 相关 行为 的 模拟 ， 比 
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如 ， 当 遇 到 分 支 指令 时 ， 如 果 目 标 处 理 器 中 有 分 支 预测 器 ， 则 时 序 模拟 器 访问 分 支 预测 模块 ， 
并 预测 分 支 指令 的 跳 转 方向 和 目标 。 在 功能 优先 模拟 方法 中 ， 功 能 模拟 器 先 执行 ， 并 将 提交 的 
指令 输入 给 时 序 模拟 器 ， 只 要 时 序 模拟 器 在 正确 的 路 径 上 执行 ， 功 能 模拟 器 就 一 直 提 供 正 确 路 
径 上 的 指令 。 在 控制 指令 执行 后 ， 时 序 模拟 器 可 能 偶尔 会 由 分 支 预测 器 定向 到 错误 的 执行 路 径 
上 ， 在 这 种 情况 下 ， 时 序 模拟 器 可 能 只 知道 分 支 方向 和 分 支 目 标 地 址 ， 但 并 不 访问 错误 路 径 上 
的 指令 。 当 碰 到 控制 相关 时 ， 功 能 模拟 器 不 会 出 现 预 测 错误 的 情况 ， 因 为 功能 模拟 每 次 执行 一 
条 指令 ， 分 支 指令 的 结果 可 以 立刻 知道 。 为 了 模拟 错误 路 径 执行 ， 时 序 模拟 器 需 直 接 访问 功能 
模拟 器 中 的 存储 模型 ， 以 便 执行 和 恢复 在 错误 路 径 上 的 指令 。 

功能 优先 模拟 器 集成 的 一 个 成 功 例子 是 SimWattch， 它 集成 了 Simics 和 Wattch ， 前 者 是 工 
业 标 准 产品 ， 后 者 是 学 术 版 的 SimpleScalar， 可 以 统计 性 能 和 功 耗 。 


9. 3.2 ”时序 优先 模拟 器 的 集成 


一 种 替代 功能 优先 模拟 器 集成 的 方法 是 时 序 优 先 模拟 ， 在 这 种 方法 中 ,时序 模 拟 器 的 运行 
优先 于 功能 模拟 器 。 时 序 模拟 器 模拟 了 目标 系统 微 架 构 配 置 ， 因 此 可 以 在 周期 级 别 模拟 指令 的 
执行 。 时 序 模拟 器 不 必 执 行 所 有 的 指令 ， 特 别 是 ， 指 令 集中 可 能 存在 一 些 在 实际 基准 测试 程序 
中 很 少 执行 到 ， 但 需要 进行 复杂 系统 微 架构 交互 的 指令 ， 如 果 我 们 可 以 忽略 对 这 类 很 少 使 用 指 
令 所 需 的 复杂 微 架 构 交 互 的 模拟 ， 那 么 时 序 模 拟 器 的 发 展 和 验证 就 能 大 大 简化 。 在 时 序 优先 模 
拟 器 中 ， 时 序 模 拟 器 在 指令 即将 提交 时 必须 就 指令 执行 结果 和 功能 模拟 器 进行 验证 ， 主 要 是 验 
证 时 序 模拟 器 和 功能 模拟 器 的 系统 架构 状态 是 否 相 同 。 

时 序 模拟 器 通过 功能 模拟 器 来 获取 指令 执行 对 系统 架构 状态 的 影响 。 由 于 功能 模拟 器 总 是 
如 实地 记录 系统 架构 状态 的 改变 ; 因此， 时序 模拟 器 将 功能 模拟 器 的 系统 架构 状态 视 为 对 比 标 
准 。 如 果 时 序 模拟 器 的 系统 架构 状态 与 功能 模拟 器 的 状态 相 匹 配 ， 则 时 序 模拟 器 正常 退出 该 指 
令 。 这 种 能 够 通过 退出 检查 的 指令 被 称 为 正确 执行 的 ， 否 则 被 称 为 状态 偏离 的 ， 一旦 出 现状 态 
偏离 ， 就 将 功能 模拟 器 的 系统 结构 状态 复制 到 时 序 模拟 器 中 ， 时 序 模拟 器 将 在 出 现状 态 偏离 的 
指令 之 后 立即 清空 流水 线 ， 并 重新 获取 后 续 指 令 执 行 。 因 此 ， 即 使 时 序 模拟 器 不 能 正确 产生 指 
令 对 系统 架构 状态 的 影响 ， 它 也 还 是 可 以 继续 执行 下 去 。 需 要 注意 的 是 ， 此 时 刷 流水 线 的 操作 
是 模拟 器 自身 引起 的 ， 因 此 ,流水 线 恢复 的 过 程 将 对 系统 时 序 模拟 造成 一 定 的 影响 ， 如 果 恢 复 
操作 不 是 频繁 发 生 的 ， 那 么 这 个 影响 就 很 小 。 在 时 序 优先 模拟 器 中 ， 时 序 模拟 器 不 会 更 改 功能 
模拟 器 的 系统 架构 状态 ， 因 此 ， 时 序 模拟 器 决定 指令 的 调度 执行 顺序 ， 但 最 终 的 执行 状态 结果 
是 由 功能 模拟 器 决定 的 。 

”GEMS 和 FeS2 是 时 序 优先 全 系统 模拟 器 的 两 个 实例 ， 它 们 分 别 对 SPARC 指令 集 和 x86 指 
令 集 进行 了 模拟 。GSMS 和 FeS2 都 使 用 了 Simics 作为 其 功能 模拟 器 ， 时 序 模型 则 是 GEMS 框架 
中 的 一 个 新 组 件 。 根 据 所 需 的 精度 级 别 ，GEMS 可 以 仅 模拟 作为 时 序 模型 中 的 存储 层次 结构 ， 
或 者 也 可 以 在 时 序 模块 中 模拟 一 个 详细 的 乱 序 处 理 器 。GEMS 的 存储 层次 结构 模块 称 为 Ruby， 
它 可 以 模拟 目标 微 处 理 器 的 复杂 存储 层次 结构 ， 包 括 片上 互连网 络 、DRAM 控制 器 和 内 存 条 
等 ; 处 理 器 模块 称 为 Opal， 它 可 以 实现 一 个 详细 的 乱 序 处 理 器 模型 。GEMS 可 以 通过 配置 方式 
来 启动 Ruby 或 Opal， 当 两 者 都 启动 时 ， 则 可 以 模拟 详细 的 内 存 模型 和 处 理 器 模型 。 由 于 
GEMS 是 一 个 时 序 优先 模拟 器 ， 时 序 模型 的 运行 优先 于 功能 模型 (Simics) ,例如 ;Opal 模拟 指 
令 执行 时 ， 将 其 送 入 对 应 的 处 理 器 流水 线 中 进行 模拟 ， 当 指令 准备 提交 时 ， 它 再 调用 Simics 功 
能 模拟 器 执行 对 应 指令 ， 然 后 通过 比较 Opal 与 Simics 的 系统 架构 状态 来 检查 Opal 执行 功能 的 
正确 性 ， 如 果 Opal 的 指令 执行 结果 是 一 致 的 ， 则 直接 退出 该 指令 ， 否则， 如 果 0pal 的 指令 执 
行 结果 不 一 致 ， 则 需要 从 Simics 中 重新 加 载 正 确 的 系统 架构 状态 。 本 质 上 ，0Opal 控制 Simics 何 
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时 可 以 执行 下 一 条 指令 ， 从 而 也 就 控制 了 每 条 指令 执行 的 时 序 。 

在 某 些 情 况 下 ， 时 序 模拟 器 对 功能 模拟 器 模拟 进度 的 控制 是 十 分 关键 的 ， 特 别 是 模拟 多 处 
理 器 目标 系统 时 ， 不 同 线程 指令 的 交叉 执行 顺序 是 依赖 于 时 序 信 息 的 ， 此 时 ， 时 序 优先 的 方法 
比 功能 优先 的 方法 更 加 准确 。 


9.4 ”多 处 理 器 模拟 器 


到 目前 为 止 ， 对 模拟 器 的 讨论 还 主要 集中 在 对 单 处 理 器 的 模拟 ， 随 着 CMP 的 出 现 ， 并 行 
系统 开始 广泛 用 于 从 服务 器 到 手机 的 各 个 计算 领域 。 工 业 设计 人 员 也 更 加 关注 能 够 支持 科学 计 
算 、Web 服务 、 数 据 挖 气 和 计算 金融 等 高 性 能 应 用 的 CMR 系统 的 设计 。 每 一 代 新 的 CMP 系统 
通常 都 会 使 用 更 加 复杂 的 互 连 结构 来 连接 更 多 的 处 理 器 核 , 因此 相 比 前 代 都 会 变 得 更 加 复杂 ， 
这 导致 对 CMP 系统 的 模拟 成 为 一 个 新 的 挑战 。 构 建 复杂 的 CMP 系统 模拟 平台 变 得 十 分 困难 ， 
过 程 也 非常 耗 时 。 模 拟 单 处 理 器 目标 机 和 多 处 理 器 目标 机 的 一 个 根本 区 别 是 ， 在 多 处 理 器 目标 
机 中 ， 不 同 的 目标 处 理 器 核 之 间 存 在 交互 和 影响 ， 一 个 处 理 器 核 的 行为 可 能 会 影响 另 一 个 处 理 
器 核 的 执行 ， 这 种 交互 可 能 出 现在 片上 互连网 络 或 者 目标 线程 之 间 进 行 数据 交换 时 ， 例 如 ， 基 
于 总 线 的 CMP 中 的 多 个 处 理 器 核 需 要 共享 总 线 上 的 请 求 ， 而 这 些 请 求 之 间 可 能 会 互相 冲突 ， 
在 缓存 一 致 性 相关 的 事务 请 求 中 也 会 出 现 类 似 的 交互 ， 准 确 模拟 这 些 交互 行为 使 得 多 处 理 器 模 
拟 比 单 处 理 器 模拟 更 具 挑战 性 。 

目前 有 两 种 方法 来 模拟 CMP 系统 : 串 行 模拟 和 并 行 模拟 ， 如 图 9-3 所 示 。 





a ) 串 行 模拟 b ) 并 行 模拟 
图 9-3 ”并行 目标 机 的 模拟 


9.4. 1 捉 行 多 处 理 器 模拟 器 


如 图 9-3a 所 示 ; ;在 多 处 理 器 目标 机 的 串 行 模拟 中 ， 所 有 的 目标 处 理 器 核 都 在 一 个 模拟 器 
线程 中 执行 。 这 种 模拟 器 通常 以 轮 询 的 方式 依次 模拟 不 同 处 理 器 核 的 时 钟 周 期 ， 比 如 ， 先 模拟 
目标 处 理 器 core 0 的 一 个 周期 ， 紧 接着 再 模拟 目标 处 理 器 core 1 的 一 个 周期 ， 以 此 类 推 。 周 期 
是 模拟 的 二 个 基本 时 间 单 位 ;在 每 个 周期 中 ; 模拟 器 轮流 模拟 每 个 处 理 器 核 的 行为 ， 相 应 地 将 
流水 线 推进 一 个 时 钟 周 期 ， 此 外 还 模拟 处 理 器 核 的 私有 cache 的 行为 。 完 成 一 个 处 理 器 核 的 模 
拟 后 ;在 同一 周期 中 ， 紧 接着 模拟 下 一 个 处 理 器 核 的 行为 ， 一 旦 目标 系统 中 所 有 处 理 器 核 都 完 
成 了 同一 周期 的 模拟 , 该 模拟 器 就 接着 模拟 本 周期 中 发 生 的 全 局 事件 ， 包括: 某 个 处 理 器 核 私 
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有 cache 中 发 生 的 cache 失效 ， 该 请 求 被 送 入 最 后 一 级 共享 cache, 或 者 转换 成 一 个 核 间 通信 事 
件 ， 即 数据 通过 片上 互连网 络 从 一 个 处 理 器 核 传 送 到 另 一 个 处 理 器 核 。 当 全 局 事件 模拟 完成 
时 ,模拟 器 就 进入 下 一 个 模拟 周期 ， 此 后 一 直 重 复 这 个 过 程 ， 直 到 整个 模拟 结束 。 在 每 个 周期 
的 最 后 进行 全 局 事件 的 处 理 ， 可 以 保证 一 个 目标 处 理 器 行为 的 预期 效果 在 其 他 处 理 器 核 中 准确 
反映 ， 因 此 ， 串 行 模拟 多 核能 够 真实 模拟 处 理 器 核 间 的 交互 。 不 过 ， 由 于 目标 系统 的 处 理 器 核 
数 越 来 越 多 ， 而 单线 程 的 性 能 却 没有 太 大 提高 ， 导 致 串 行 模拟 器 的 性 能 难以 满足 灵活 扩展 的 

现 有 的 串 行 多 处 理 器 模拟 工具 包括 RSIM、M5、MINT、GEMS、SESC 和 Zesto 等 。 此 外 ， 
诸如 Simics 和 Sim0S 这 样 的 全 系统 模拟 器 也 能 够 模拟 多 处 理 器 系统 。RSIM 是 第 一 个 广泛 使 用 
的 能 够 模拟 乱 序 执行 处 理 器 核 的 多 处 理 器 模拟 器 二 它 结合 了 指令 级 并 行 .(ILP) 和 多 处 理 器 模 
拟 , 但 它 无 法 运行 复杂 的 工作 负载 ， 如 操作 系统 代码 等 。 近 年 来 ， 人 们 开发 了 一 些 能 够 运行 商 
业 负 载 、 具 有 详细 系统 微 架 构 特 征 的 多 处 理 器 模拟 器 : M5 是 一 个 面向 网 络 模拟 的 全 系统 模拟 
器 ， 它 支持 详细 的 乱 序 SMT 处 理 器 模型 ; SESC 能 模拟 不 同 的 处 理 器 架构 , 包括 单 处 理 器 和 片 
上 多 核 处 理 器 ， 它 支持 对 现代 处 理 器 中 带 有 分 支 预测 和 cache 结构 的 乱 序 流水 线 以 及 其 他 部 件 
进行 模拟 ; GEMS 则 将 功能 模拟 和 时 序 模拟 进行 了 分 离 ， 它 可 以 使 用 一 个 叫 作 Ruby 的 存储 层 
次 模拟 模块 对 多 处 理 器 的 存储 层次 结构 和 -cache 一 致 性 协议 进行 模拟 ，GEMS 还 包含 一 个 能 够 
配置 成 多 处 理 器 时 序 模拟 器 的 Opal 模块 -可 以 对 多 处 理 器 中 的 每 个 处 理 器 进行 详细 模拟 ， 借 
助 于 Opal 和 Ruby 模块 ， 设计 人 员 可 以 模拟 处 理 器 核 、cache 层次 结构 ， 以 及 多 处 理 器 环境 下 
的 cache 一 致 性 协议 等 。 ! 

RPPT (The Rice Parallel Processing Testbed) 是 最 早 的 多 处 理 器 模拟 器 之 一 ， 它 通过 在 宿主 
机 硬件 上 直接 执行 基准 测试 程序 代码 ， 拟 及 选择 性 地 模拟 处 理 帮 间 的 通信 事件 来 实现 模拟 加 
速 。RPPT 的 输入 参数 主要 有 三 个 ,分别 是 : 目标 处 理 器 结构 参数 ， 互 连 网络 配置 ， 多 线程 基 
准 测试 程序 。RPPT 使 用 编译 器 分 析 或 用 户 提供 的 注释 来 识别 基准 测试 程序 代码 中 不 同 线程 的 
交互 点 ， 它 侧重 于 模拟 多 处 理 器 目标 机 上 的 消息 传递 。 在 同一 线程 中 执行 的 局 部 代码 被 划分 成 
基本 块 ， 通 过 对 目标 处 理 器 的 配置 来 估计 每 个 基本 块 执行 所 需 的 周期 数 ， 如 果 二 个 基本 块 由 一 
个 加 、 一 个 减 、 一 个 乘 以 及 一 个 除 组 成 ， 则 RPPT 将 每 个 独立 指令 的 延迟 进行 求 和 。 对 load 指 
令 来 说 ， 其 延迟 根据 预期 的 cache 命中 率 以 及 命中 和 未 命中 的 延迟 来 近似 计算 得 到 。 简 单 的 周 
期 计数 功能 可 以 通过 在 每 个 基本 块 的 末尾 插 桩 代码 来 实现 ， 无 论 线程 在 何 处 与 男 一 线程 进行 通 
信 ， 功 能 调用 都 可 以 插入 其 中 ， 以 此 实现 对 目标 机 互连网 络 的 模拟 ， 插 桩 的 基准 测试 程序 将 在 
宿主 机 处 理 器 上 运行 。 


9. 4.2 并 行 多 处 理 器 模拟 器 


传统 单线 程 模拟 扩展 性 不 佳 ， 因 此 人 们 又 对 并 行 多 处 理 器 模拟 器 进行 了 深 从 研究。 尽管 并 
行 多 处 理 器 模拟 器 实现 难度 大 ,但 它 可 以 显著 加 快 模拟 速度 。 在 这 种 方法 中 ， 每 个 目标 处 理 右 
核 都 在 单独 的 模拟 器 线程 上 进行 模拟 ， 多 个 模拟 器 线程 被 映射 到 一 个 宿主 机 处 理 器 核 上 。 假设 
C 为 目标 CMP 中 的 处 理 器 核 数目 ，N 为 整个 宿主 机 CMP 中 硬件 线程 的 数量 “(可 能 包含 多 线程 
处 理 器 核 ) ， 一 种 直观 且 可 扩展 的 模拟 负载 分 配方 法 是 ， 将 同一 目标 处 理 器 核 的 模拟 分 配 到 一 
个 模拟 线程 ， 然 后 在 宿主 机 中 建立 C/N 个 模拟 线程 到 每 个 硬件 线程 的 映射 。 无 论 从 性 能 角度 
还 是 编程 角度 ， 这 种 方法 都 是 可 扩展 的 。 图 9-3b 阐述 了 并 行 CMP 模拟 的 概念 。 

并 行 CMP 模拟 的 速度 主要 依赖 于 以 下 4 层 的 实现 效率 ; 应 用 程序 层 ， 目 标 硬 件 层 ， 宿 主 
机 硬件 层 ， 模 拟 层 。 这 4 层 的 详细 阐述 见 图 9-4。 在 应 用 程序 层 中， 模拟 加 速 受 限于 算法 加 速 ， 
如 果 目 标 应 用 只 有 很 少 并 行 性 或 根本 无 并 行 性 ， 则 通过 在 CMP 上 运行 模拟 得 到 的 加 速 是 微 乎 
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其 微 的 ， 这 是 因为 每 个 宿主 机 线程 的 上 下 文 只 是 一 个 模拟 器 的 目标 处 理 器 核 。 如 果 目 标 CMP 
架构 本 身 存 在 一 定 的 性 能 瓶颈 ， 如 处 理 器 核 数 少 或 者 存储 架构 效率 较 低 ， 则 并 行 模拟 对 模拟 加 
速 没 有 什么 帮助 。 例 如 ， 如 果 目 标 处 理 器 核 大 多 数 时 间 都 在 等 待 内 存 ， 则 模拟 目标 处 理 器 核 的 
模拟 线程 也 大 多 处 于 空闲 状态 。 在 宿主 机 硬件 层 ，CMP 宿主 机 必须 有 足够 的 资源 ， 这 样 才能 
够 有 效 执行 并 行 模拟 ,例如 ， 通 过 支持 快速 读 写 共享 和 拥有 足够 的 片上 cache 来 维护 模拟 的 工 
作 集 。 


应 用 程序 层 





目标 硬件 层 





模拟 层 





宿主 机 硬件 层 








图 9-4 并 行 CMP 模拟 的 4 层 


在 本 节 中 ， 主 要 讲述 模拟 层次 的 性 能 。 首先 讨论 一 个 更 为 普遍 的 问题 : 模拟 处 理 器 核 的 宿 
主机 线程 之 间 的 交互 以 及 它们 之 间 的 过 度 同 步 。 而 基准 测试 程序 中 固有 的 低 效 现象 、 目 标 硬件 
层 和 宿主 机 硬件 层 等 不 在 本 节 的 讨论 范围 之 内 ,目标 CMP 设计 的 相关 问题 在 本 书 的 其 他 部 分 
进行 论述 ， 而 有 效 的 并 行 算法 设计 则 完全 不 在 本 书 的 主题 范围 内 。 

为 简化 起 见 ， 我 们 假设 宿主 机 系统 的 处 理 器 核 数 与 目标 处 理 器 核 数 相 等 ， 在 这 种 情况 下 ， 
每 二 个 目标 处 理 器 核 都 在 一 个 宿主 机 核 上 进行 模拟 ,这 种 方法 以 设计 和 开发 模拟 环境 的 复杂 度 
为 代价 ,换取 了 模拟 速度 的 提升 。 当 多 个 目标 处 理 器 核 并 行 地 运行 在 多 个 宿主 机 核 上 上 时， 模拟 
器 必须 协调 各 模拟 线程 ， 以 便 处 理 器 核 间 的 交互 能 够 正确 地 模拟 。 由 于 不 同 的 目标 核 在 不 同 的 
宿主 机 核 土 以 不 同 的 速度 进行 模拟 ， 因 此 要 满足 这 一 要 求 是 一 个 极 大 的 挑战 ， 存 在 的 主要 问题 
是 ， 一 个 处 理 器 核 的 模拟 可 能 在 男 二 个 处 理 器 核 的 模拟 之 后 完成 当 发 生 这 种 情况 时 , 执行 靠 
前 的 处 理 器 核 模拟 线程 可 能 会 因为 与 后 面 处 理 器 核 模拟 线程 的 交互 而 受到 影响 ， 因 为 这 一 交互 
行为 本 来 是 需要 发 生 在 执行 更 快 线程 的 过 去 某 个 时 间 的 ， 但 是 现在 才 收 到 ， 所 以 会 对 当前 状态 
产生 影响 。 在 这 种 情况 下 ， 因 果 关 系 的 处 理 顺序 与 它们 在 目标 模拟 系统 中 的 时 间 顺 序 基 不 一 致 
的 ， 出 现 了 模拟 准确 性 目的 偏离 。 

在 深入 研究 CMP 的 并 行 模拟 之 前 ,我们 对 前 人 已 经 探索 过 的 并 行 离散 事件 模拟 ( Parallel ， 
Discrete- Event Simulation，PDES) 环境 下 的 各 种 技术 进行 概述 。 

并 行 离散 事件 模拟 

多 年 来 ， 并 行 模拟 一 直 是 众多 应 用 领域 中 的 热门 研究 话题 。 在 用 于 计算 机 体系 结构 模拟 之 
前 ,并行 化 就 是 一 种 非常 流行 的 用 来 加 速 离散 事件 模拟 (DES) 的 方法 。 离 散 事件 模拟 所 针对 
的 是 不 连续 变化 系统 的 模拟 ， 即 变化 经 常 发 生 在 离散 的 时 间 关 比如 某 个 特定 事件 发 生 的 时 候 。 
并 行 离散 事件 模拟 (PDES) 采用 两 种 不 同 的 机 制 来 实现 模拟 中 因果 关系 的 正确 有 序 : 保守 同 
步 机 制 和 乐观 同步 机 制 。 

保守 同步 机 制 的 关键 是 通过 和 仔细 地 逐步 模拟 来 避免 时 序 的 冲突 ， 这 可 能 会 降低 模拟 的 效 
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率 。 为 了 避免 时 序 的 冲突 ， 一 个 保守 的 方法 是 ， 仅 当 没 有 其 他 事件 可 能 对 当前 事件 产生 影响 时 
再 处 理 该 事件 ， 换 句 话 说 ， 如 果 事 件 A 对 事件 B 有 影响 ， 则 保守 方法 会 先 处 理事 件 A， 然 后 再 
处 理事 件 B。 最 严格 的 保守 同步 机 制 是 按照 目标 机 中 事件 发 生 的 确切 顺序 来 模拟 事件 ， 这 种 方 
法 实际 上 并 没有 实现 并 行 。 

基于 前 看 (lookahead) 的 方法 是 一 种 更 为 宽松 的 保守 同步 机 制 ，lookahead 值 是 指 某 个 模 
拟 事件 在 不 违背 时 序 正确 性 的 情况 下 可 以 安全 执行 的 最 大 时 间 量 。 在 这 种 方法 下 ， 先 发 生 的 事 
_ 件 总 是 先 被 处 理 ， 并 且 人 允许 模拟 线程 从 该 事件 发 生 时 刻 开 始 ， 向 前 直接 模拟 推进 lookahead 的 
时 间 。 

对 PDES 来 说 ， 最 流行 的 保守 同步 机 制 是 barrier 同步 (barrier synchronization)， 它 将 模拟 过 
程 划分 成 由 若干 时 间 单 元 组 成 的 时 间 间 隔 ， 这 些 时 间 间 隔 通过 同步 bamier 进行 分 离 。 在 一 个 时 间 
间隔 内 ， 所 有 的 模拟 线程 在 到 达 同 步 barrier 前 ， 都 可 以 独立 推进 执行 。 该 方法 要 求 在 同一 时 间 间 
隔 内 ， 事 件 之 间 不 会 相互 影响 。 当 模拟 进入 下 一 个 时 间 间 隔 之 前 ， 在 当前 时 间 间 隔 内 触发 的 所 有 
全 局 事件 必须 对 其 他 模拟 线程 可 见 ， 这 样 它们 产生 的 效果 才能 在 下 一 个 时 间 间 隔 中 进行 模拟 。 

与 保守 的 PEDS 方法 相 比 ， 乐 观 的 PEDS 方法 在 模拟 加 速 的 同时 可 能 会 产生 因果 冲突 。 即 
使 在 目标 机 中 事件 A 可 能 会 影响 事件 B， 且 事件 B 应 该 发 生 在 事件 A 之 后 ， 在 乐观 模拟 方法 
中 , 事件 B 的 模拟 也 有 可 能 在 事件 A 的 模拟 之 前 进行 。 如 果 后 面 发 现 事 件 A 确实 影响 了 事件 
B， 则 模拟 过 程 必 须 进行 回 滚 ， 从 而 恢复 原 有 的 因果 关系 。 乐 观 同步 机 制 需要 利用 模拟 状态 的 
周期 性 检查 点 ， 并 且 需 要 检测 时 间 冲 突 。 当 检测 到 时 间 冲 突 时 ,模拟 器 必须 回 深 到 距离 当前 最 
近 的 检查 点 ， 并 且 从 这 个 检查 点 以 一 种 安全 模式 重新 执行 模拟 过 程 。 

当时 间 冲 突 发 生 频 繁 时 ， 乐 观 同步 机 制 的 性 能 很 差 ; 当时 间 冲 突 很 少 发 生 时 ,保守 同步 机 
制 的 性 能 更 差 。 

因为 多 处 理 器 的 处 理 器 核 受 到 时 钟 约束 ， 其 状态 只 在 每 个 时 钟 周期 结束 后 才 会 发 生 改变 ， 
因此 ，PDES 技术 适用 于 处 理 器 核 的 模拟 。 需 要 重点 关注 的 两 类 保守 同步 机 制 是 barrier 同步 和 
松弛 同步 〈slack synchronization) ， 在 多 处 理 器 模拟 领域 ,保守 的 PDES 方法 是 迄今 为 止 研究 最 
多 的 方法 。 . 

量子 模拟 

总 体 来 讲 ，CMP 并 行 模拟 中 最 为 常见 的 保守 同步 机 制 是 barrier 同步 。 

最 保守 的 方法 是 在 目标 处 理 器 核 每 个 周期 结束 后 对 模拟 线程 进行 同步 ， 这 种 方法 与 单线 程 
逐 拍 〈Cycle-by-Cycle，CC) 模拟 一 致 。 在 这 种 方法 中 ， 每 个 目标 处 理 器 核 模拟 的 时 间 单 位 是 
一 个 周期 ， 且 在 进入 下 个 周期 前 ， 每 个 目标 核 的 模拟 线程 必须 等 待 其 他 所 有 核 模拟 线程 完成 本 
周期 的 模拟 。 图 9-5 显示 了 4 个 目标 核 映 射 到 4 个 宿主 机 核 上 的 逐 拍 并 行 CMP 模拟 的 时 序 过 
程 。 所 有 的 模拟 线程 都 在 每 个 模拟 周期 结束 后 进行 同步 ， 例 如 ， 在 模拟 时 钟 1 时 ，P4 是 目标 
核 在 第 一 个 周期 第 一 个 完成 模拟 的 线程 ， 而 Pl 是 最 后 一 个 ， 因 此 所 有 的 模拟 线程 在 进入 下 一 
个 周期 前 ， 必 须 等 待 Pl 的 模拟 完成 。 在 逐 拍 模拟 中 ， 每 个 模拟 线程 都 执行 其 目标 核 的 一 个 周 
期 ， 然 后 需要 与 其 他 线程 进行 同步 ， 由 于 总 有 3 个 宿主 机 核 在 结束 其 模拟 目标 周期 后 处 于 空闲 
状态 ， 因 此 这 种 频繁 的 同步 会 浪费 并 行 性 。 

模拟 时 间 1 2 3 4 5 6 
P4 
P3 


P2 ， 结束 
Pi 


全 局 时 间 
图 9-5 ” 逐 拍 模拟 
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其 实 我 们 也 可 以 在 几 个 周期 后 对 模拟 线程 进行 同步 ， 而 不 是 每 个 周期 都 同步 。 模 拟 过 程 被 
分 成 由 几 个 模拟 周期 组 成 的 时 间 间 隔 ， 这 些 时 间 间 隔 由 同步 barrier 进行 分 隔 ， 每 两 个 同步 bar- 
rier 之 间 的 时 间 间 隔 称 为 一 个 量子 ， 这 种 模拟 方法 通常 也 称 为 量子 模拟 。 在 一 个 量子 期 间 ， 所 
有 的 模拟 线程 在 达到 同步 点 之 前 都 可 以 独立 推进 执行 ， 当 模拟 进入 下 一 个 时 间 间 隔 之 前 ， 在 当 
前 时 间 间 隔 内 所 触发 的 所 有 全 局 事件 必须 对 所 有 模拟 处 理 器 核 可 见 ， 这 样 它们 产生 的 效果 才能 
在 下 一 个 时 间 间 隔 中 进行 模拟 。 图 9-6 显示 了 基于 量子 的 CMP 模拟 时 序 过 程 ， 图 中 所 有 处 理 器 
核 模拟 线程 必须 每 3 个 周期 同步 一 次 ， 即 该 例 中 的 量子 时 长 为 3 个 周期 。 图 中 当 P4 完成 第 一 
个 周期 的 模拟 时 ， 不 同 于 逐 拍 模拟 ， 它 无 需 等 待 Pl 模拟 的 完成 ， 而 是 继续 进行 第 2 和 第 3 周 
期 的 模拟 。 由 于 目标 核 中 P2 完成 3 个 周期 模拟 所 需 的 时 间 最 长 ， 因 此 其 他 线程 在 完成 3 个 周 
期 模拟 后 需要 等 待 P2。 i 


1~3 4~6 y 

全 局 时 间 村 : 
P3 ; 结束 

P2 

P1 
一 - 一 全 = 


模拟 时 间 
图 9-6 ”量子 模拟 


逐 拍 模拟 和 量子 模拟 的 区 别 在 于 何 时 以 及 如 何 使 得 来 自 处 理 器 核 线 程 的 需求 成 为 全 局 可 见 
的 。 在 逐 拍 模拟 中 ， 处 理 器 核 线程 在 每 个 周期 结束 后 进行 同步 ， 这 种 紧密 同步 保证 了 所 有 需求 
的 影响 效果 可 以 立即 成 为 全 局 可 见 的 ， 从 而 使 得 模拟 系统 在 每 个 周期 结束 后 保持 一 致 。 另 一 方 
面 ， 在 量子 模拟 中 ， 直 到 每 个 量子 结束 后 请 求 才 是 全 局 可 见 的， 在 每 个 处 理 器 核 线程 耗 尽 其 量 
子 时 间 后 ， 模 拟 器 对 共享 资源 进行 更 新 ， 从 而 使 得 目标 系统 对 下 一 个 量子 中 的 所 有 处 理 器 核 线 
程 来 说 是 状态 一 致 的 。 

由 图 9-6 可 以 看 出 ， 量 子 模 拟 明显 比 逐 拍 模拟 效率 更 高 ， 因 为 与 逐 拍 模拟 相 比 ， 量 子 模拟 
中 的 全 局 同步 点 减少 了 三 分 之 二 。 一 般 来 说 ， 同 步 点 越 少 ， 模 拟 效率 越 高 。 然 而 ， 由 于 线程 到 
达 同 步 点 所 需 的 时 间 是 不 同 的 ， 因 此 模拟 速度 受 限 于 每 个 量子 周期 中 速度 最 慢 的 线程 。 

量子 模拟 的 准确 性 取决 于 量子 的 大 小 。 当 量子 大 小 不 超过 将 一 个 目标 处 理 器 核 产 生 的 事件 
传播 到 可 以 影响 另 一 个 处 理 器 核 模拟 〈 如 通信 、 同 步 或 资源 冲突 等 ) 的 位 置 所 需 的 最 小 延迟 
时 ， 可 以 认为 量子 模拟 同 逐 拍 模拟 一 样 准确 ， 这 个 最 小 延迟 称 为 临界 延迟 。 在 一 个 特殊 的 模拟 
系统 中 ,识别 临界 延迟 很 可 能 非常 困难 ;需要 小 心 处 理 。 例 如 ，CMP 的 线程 经 常 因为 共享 资源 
(如 处 理 器 核 和 I2 bank 之 间 的 互 连 ) 而 发 生 冲突 ， 这 种 冲突 可 能 只 有 一 个 周期 的 延迟 ， 此 时 
量子 将 设置 为 一 个 时 钟 周期 ， 然 而 ， 人 们 也 常常 会 忽略 这 种 底层 交互 的 影响 ， 以 便 得 到 一 个 更 
为 合理 的 量子 大 小 。 

使 用 bairrer 同步 并 行 模拟 的 一 个 著名 例子 是 WWT II (Wisconsin Wind Tunnel I) 模拟 器 ，、 
它 是 一 个 直接 执行 的 离散 事件 模拟 器 ， 可 以 在 共享 内 存 多 处 理 器 或 工作 站 网 络 上 并 行 执行 。 

松弛 模拟 (slack simulation) 是 CMP 并 行 模拟 的 另 一 种 实现 机 制 。 在 松弛 模拟 中 ， 模 拟 处 
理 器 核 不 同 于 在 每 个 模拟 周期 结束 后 都 进行 同步 的 逐 拍 模拟 ， 也 不 同 于 在 几 个 固定 周期 后 进行 
同步 的 量子 模拟 ， 松 弛 模拟 的 模拟 周期 被 赋予 了 一 定 的 松弛 度 。 松 弛 度 是 指 模拟 过 程 中 任意 两 
个 目标 处 理 器 核 之 间 的 周期 差异 数 ， 较 小 的 松弛 度 〈 例 如 几 个 周期 ) 可 以 大 大 减少 模拟 线程 
之 间 的 同步 次 数 ， 从 而 提高 模拟 效率 ， 与 此 同时 ， 对 模拟 误差 的 影响 很 小 甚至 可 以 忽略 。 

图 9-7 给 出 了 有 界 松 弛 模拟 方法 ， 线 程 间 的 最 大 松弛 度 类 似 于 量子 模拟 进行 限定 ， 但 是 模 
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拟 线程 并 不 在 barrier 点 处 进行 定期 同步 ， 最 大 松弛 度 会 限制 所 有 模拟 线程 必须 在 一 个 周期 窗口 
范围 内 ， 该 窗口 的 大 小 取决 于 最 大 松弛 度 ， 只 要 最 快 的 目标 处 理 器 核 与 最 慢 的 目标 处 理 器 核 之 
间 的 差距 在 一 个 松弛 度 范围 之 内 ， 那么 目标 处 理 器 核 就 可 以 继续 执行 。 在 一 个 最 大 松弛 是 $ 个 
周期 的 窗口 ， 当 最 快 的 目标 核 比 最 慢 的 目标 核 快 5 个 周期 时 ， 最 快 的 目标 模拟 器 就 需要 等 待 最 
慢 线 程 执 行 推进 ， 当 最 慢 线程 推进 一 个 时 钟 周期 时 ， 最 快 与 最 慢 线 程 之 间 的 差距 缩小 到 5 -1 
个 周期 ， 此 时 ， 最 快 的 线程 可 以 立即 开始 执行 它 的 下 一 个 模拟 周期 。 

全 局 时 间 ，， 


P3 
P2 
P1 








图 9-7 松弛 模拟 


模拟 线程 的 局 部 时 间 是 其 目标 处 理 器 核 的 模拟 周期 计数 ， 所 有 模拟 线程 中 最 小 的 局 部 时 间 
就 是 全 局 时 间 。 参 考 图 9-7， 每 个 窗口 的 左边 界 总 是 与 全 局 时 间 (7,) 相等 ， 当 最 大 松弛 为 5 
个 周期 时 ， 每 个 模拟 窗口 的 右边 界 是 7, + $， 这 是 所 有 模拟 线程 的 最 大 局 部 时 间 ， 每 当 全 局 时 
间 增 加 时 ， 窗 口 都 会 随 之 滑动 ， 而 这 种 滑动 出 现在 最 慢 的 线程 向 前 推进 时 。 由 于 全 局 时 间 总 是 
增加 的 ， 因 此 窗口 总 是 向 右边 滑动 ， 即 朝 着 模拟 结束 的 方向 。 在 窗口 内 的 所 有 线程 都 可 以 独立 
运行 ,只 有 当局 部 时 间 等 于 7, +5 时 ， 模 拟 线程 才 会 被 阻塞 。 在 图 9-7 中 ， 松 弛 度 为 2 个 周期 ， 
箭头 指向 全 局 时 间 的 变化 方向 ， 当 全 局 周期 为 3 时 ，P1 和 P2 同时 结束 模拟 ， 因 此 ， 下 一 次 模 
拟 从 全 局 周期 4 开始 。 

松弛 模拟 和 量子 模拟 之 间 存 在 着 显著 的 差异 : 在 量子 模拟 中 ， 只 有 当 所 有 线程 的 局 部 时 间 
等 于 它们 的 最 大 局 部 时 间 时 ， 全 局 时 间 才 进行 更 新 ;与 之 不 同 的 是 ， 在 有 界 松弛 模拟 中 ， 只 要 
最 小 局 部 时 间 取 得 进展 ， 全 局 时 间 就 进行 更 新 ， 尽 管 有 界 松弛 模拟 中 的 线程 之 间 仍 存在 一 些 同 
步 ， 但 相对 于 量子 模拟 来 说 ， 这 种 同步 要 宽松 得 多 。 理 想 情 况 下 ， 在 整个 模拟 期 间 ， 可 能 没有 
任何 线程 需要 阻塞 以 等 待 其 他 线程 的 执行 ， 这 等 同 于 假设 所 有 线程 始终 运行 在 由 松弛 边界 定义 
的 滑动 窗口 内 ， 因 此 任何 线程 都 不 会 到 达 它 的 上 界 。 


9.5 功 耗 和 热量 模拟 


对 区 片 设 计 师 来 说 ， 虽 然 性 能 模拟 很 有 吸引 力 ， 但 与 此 同时 ， 也 路 需 一 些 其 他 的 准确 量化 
设计 指标 ， 例 如 ， 功 耗 和 温度 等 。 事 实 上 ， 提 高 性 能 的 设计 方案 往往 是 以 更 高 的 功 耗 为 代价 
的 ， 除 功 耗 外 ， 热 量 约束 也 是 设计 时 需要 重点 考虑 的 一 项 指标 ， 由 于 供电 成 本 和 制冷 方案 成 本 
的 不 断 提 高 ， 这 些 设计 指标 变 得 同性 能 一 样 重 要 。 因 此 ， 在 模拟 设计 时 ， 必 须 全 面 权 衡 功 耗 、 
热量 以 及 性 能 之 间 的 准确 模拟 ， 这 样 才能 做 出 最 好 的 设计 决策 。 

Wattch 是 一 个 著名 的 体系 结构 级 功 耗 模拟 工具 ， 图 9-8 给 出 了 其 结构 框图 。 像 Wattch 这 样 
的 体系 结构 功 耗 模拟 器 ， 都 是 依赖 于 众所周知 的 动态 功 耗 方程 P = aCVisf 来 建 模 。 在 这 个 方程 
中 ，a 为 活动 因子 ， 它 主要 统计 组 件 通电 时 周期 所 占 的 比例 ; C 为 组 件 电容 ; Vs 为 电源 电压 ; 
J 为 时 钟 频 率 。Vus 和 j 这 两 个 参数 与 制造 工艺 相关 ， 它 们 通常 不 受 体系 结构 的 控制 ， 因 此 ， 这 
些 参 数 通常 作为 输入 提供 给 模拟 器 。 

测量 处 理 器 中 每 个 组 件 的 电容 是 极 具 挑战 性 的 任务 ， 这 是 因为 C 依赖 于 制造 工艺 和 系统 微 
架构 模块 的 电路 实现 。 为 了 简化 对 C 的 计算 ,Wattch 将 系统 微 架构 模块 分 为 5 类 : (1) SRAM 
为 主 的 阵列 结构 ， 如 cache、 寄 存 器 堆 和 取 指 队列 ; (2) 内 容 可 寻 址 存储 (CAM) 结构 ， 如 保 
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留 站 和 TLB; (3) 线 结构 ， 如 总 线 ; (4) 组 合 逻 辑 模 块 ， 如 功能 单元 ; (5) 时 钟 分 布 的 基础 
架构 。 
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P=aCV3f 


/ 
\ 






运行 时 
功 耗 








结构 活动 因子 


性 能 数据 
图 9-8 ”Wattch 模拟 器 


对 SRAM 为 主 的 结构 来 说 ， 电 容 主要 取决 于 线 宽 、 读 / 写 端口 数 以 及 SRAM 阵列 中 的 bank 
数 。 在 CAM 中 ,电容 主要 取决 于 CAM 中 标识 位 (tag) 和 匹配 位 的 数目 ， 它 直接 正比 于 CAM 
结构 的 大 小 。 总 线 的 电容 正比 于 总 线 的 长 度 以 及 总 线 上 中 继 器 的 个 数 。 系 统 微 架 构 配 置 参 数 不 
包括 总 线 长 度 ， 它 们 取决 于 具体 实现 ， 因 此 ， 在 系统 微 架 构 级 别 ， 只 能 获取 连接 两 个 组 件 总 线 
的 近似 长 度 , 或 者 ， 用 户 也 可 以 基于 位 置 和 路 由 工具 来 实现 所 提出 的 设计 方案 ,继而 完成 总 线 
长 度 的 测量 。 功 能 单元 ， 如 加 法 器 、 风 辑 单元 、 乘 法 器 或 浮 点 单元 都 是 在 门 级 设计 的 ， 从 而 可 
以 估计 它们 的 功 耗 ， 然 后 对 这 些 设计 进行 布局 布线 、 从 而 得 到 这 些 功能 单元 的 完整 分 布 和 面 
积 。 此 外 ， 还 需要 对 门 级 设计 进行 分 析 ， 从 而 确定 每 个 门 的 有 效 负载 (active load) (例如 ， 从 
当前 门 接收 输入 的 门 的 数量 ) 。 对 于 那些 需要 驱动 较 大 有 效 负载 的 门 ， 可 以 扩大 门 的 尺寸 以 减 
小 这 些 活跃 门 的 传输 延迟 瓶颈 ,在 ALU 中 ,， 门 尺寸 增加 会 增 大 面积 开销 ， 但 同时 可 以 减 小 
ALU 内 门 延 迟 的 不 均衡 ， 进 而 减少 整个 电路 的 功 耗 开销 。 所 有 经 过 均衡 考虑 和 功 耗 优化 的 ALU 
设计 的 电容 都 可 以 在 设计 阶段 完成 后 进行 测量 ， 需 要 注意 的 是 ， 这 种 方法 测量 出 来 的 电容 是 和 
制造 工艺 相关 的 ， 当 使 用 新 的 制造 工艺 来 实现 ALU 时 ， 可 以 使 用 第 2 章 中 讲述 的 扩展 法 则 来 
计算 ALU 的 电容 。 最 后 ， 时 钟 分 布 网 络 的 电容 取决 于 时 钟 驱动 器 和 金属 导线 。 

对 每 一 类 部 件 都 可 以 通过 参数 化 结构 尺寸 来 计算 电容 。 例 如 ,计算 SRAM 的 电容 时 ， 可 
以 使 用 以 位 线 数 W 和 字 线 数 履 作 为 参数 的 函数 ; 而 计算 直接 映射 cache 结构 的 电容 时 ,设计 
人 员 可 以 简单 地 使 用 cache 行 宽度 NN 和 cache 行 数量 M 作为 参数 。 每 个 系统 微 架 构 模 块 都 可 
以 大 致 被 划分 到 这 5 个 类 别 中 的 一 个 ， 并 且 电 容 都 可 以 通过 使 用 结构 尺寸 的 参数 值 来 进行 
测量 。 

最 后 ， 在 计算 动态 功 耗 时 ， 需 要 知道 活动 因子 a， 不同 的 系统 微 架 构 的 活动 因子 可 以 通过 
性 能 模拟 得 到 ， 而 活动 因子 依赖 于 模拟 器 上 执行 的 基准 测试 程序 。 例 如 ， 通 过 体系 结构 模拟 器 
来 测量 cache 行 访问 次 数 是 十 分 容易 的 ， 在 这 个 过 程 中 ， 对 每 个 感 兴趣 的 组 件 都 需要 设置 一 个 
相关 的 计数 器 ， 每 进行 一 次 访问 ， 相 应 的 计数 器 就 加 1。 值 得 一 提 的 是 ， 所 维护 的 计数 器 的 粒 
度 取决 于 所 需 的 详细 程度 ， 如 果 设 计 人 员 想 要 模拟 每 个 cache 行 的 功 耗 ， 则 对 每 个 cache 行 来 
说 ， 都 需要 维护 一 个 计数 器 ; 另 一 方面 ， 如 果 功 耗 测 量 是 针对 整个 cache 的 ， 则 只 需要 维护 一 
个 计数 器 ， 该 计数 器 需要 对 任何 cache 行 的 所 有 访问 进行 计数 。 
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虽然 电路 中 的 动态 功 耗 占据 了 大 部 分 的 功 耗 开销 ， 但 漏电 功 耗 也 是 研究 人 员 十 分 关注 的 一 
个 问题 ， 因 此， 在 HotLeakage 工具 中 就 实现 了 对 漏电 功 耗 的 模拟 。 漏 电 功 耗 正比 于 电源 电压 
(Vu) 、 电 路 中 的 晶体 管 数 (N) ， 每 个 晶体 管 的 漏电 电流 (下 ) 以 及 一 个 特定 的 称 为 Ki 的 
参数 。 需 要 注意 的 是 ， 对 于 任何 设计 ，Vs 和 都 很 容易 确定 ， 对 于 那些 不 使 用 任何 DVFS 和 动 
态 重 配置 的 电路 来 说 ( 比如， 不 支持 诸如 关闭 一 个 未 使 用 的 ALU 这 样 的 技术 ) ，Va 和 玉 的 值 
在 设计 时 就 被 固化 了 。 然 而 ， 对 于 那些 使 用 类 似 于 DVFS 技术 的 设计 ， 在 每 次 DVFS 调节 后 ， 
Vi 都 会 发 生变 化 ， 如 果 电 路 的 一 些 组 件 可 以 动态 关闭 或 开启 ， 则 入 也 是 可 变 的 。 

”参数 A 和 Ki 都 依赖 于 具体 实现 和 电路 的 操作 条 件 ， 例 如 阔 值 电压 、 电 源 电 压 和 温度 。 
HotLeakage 使 用 电路 模拟 工具 开发 的 方法 ， 如 Berkeley Spice 模拟 ， 来 对 不 同 操作 条 件 下 的 这 些 
参数 进行 计数 ，HotLeakage 对 给 定 的 设计 进行 模拟 ， 并 测量 运行 时 的 操作 条 件 ， 主 要 是 温度 和 
电压 ， 用 以 计算 上 述 两 个 影响 参数 。 

HotSpot 是 一 个 用 于 温度 模拟 的 工具 ， 它 将 设计 布局 作为 输入 ,， 设 计 布 局 指定 各 种 电路 模 
块 以 及 模块 间 的 连接 关系 。 它 可 以 指定 不 同 的 模块 粒度 ， 例 如 ， 可 以 指定 流水 阶段 这 样 的 粗 粒 
度 模块 ， 或 指定 如 ALU 的 细 粒 度 模块 ， 或 一 组 重 排序 缓冲 项 等 。 然 后 ，HotSpot 将 每 个 模块 转 
换 成 一 个 简单 的 集中 RC 模型 。 处 理 器 设计 中 ， 每 个 模块 都 与 其 相 邻 的 模块 连接 ， 模 块 被 建 模 
为 电阻 器 二 因此 模块 间 的 连接 被 用 来 创建 整个 设计 的 RC 网 络 模型 。HotSpot 也 对 那些 堆 释 在 处 
理 器 之 上 的 ， 用 以 降低 温度 的 散热 器 和 散热 板 进行 建 模 。 要 获得 精确 的 温度 估计 ， 如 何 解释 这 
些 组 件 对 整体 温度 的 影响 是 至 关 重要 的 ， 散热 器 和 散热 板 的 影响 也 建 模 成 集中 RC 模型 。 处 理 
器 设计 的 每 个 模块 都 与 其 垂直 层 (散热 器 和 散热 板 ) 存在 连接 ， 该 连接 被 建 模 为 热电 阻 ， 整 
个 RC 模型 被 称 为 热 阻 简化 模型 (Compact Thermal Model，CTM) 。 接 下 来 在 处 理 器 设计 的 模拟 
执行 中 可 以 测量 通过 每 个 模块 的 电流 ， 继 而 CTM 使 用 电流 信息 来 确定 下 层 RC 网 络 的 温度 。 


9.6 工作 负载 采样 


由 于 计算 机 体系 结构 设计 人 员 还 严重 依赖 于 模拟 的 方法 来 评估 未 来 处 理 器 的 性 能 ， 因 此 模 
拟 加 速 就 显得 至 关 重 要 。 正 如 前 面 所 讨论 的 ， 并 行 是 加 速 模拟 的 一 个 重要 方法 ， 在 并 行 模 拟 
中 ， 目 标 系统 不 同 的 组 件 〈 如 目标 CMP 中 的 处 理 器 核 ) 都 是 通过 并 行 的 线程 进行 模拟 的 。 和 
并 行 模拟 正 交 的 另外 一 种 模拟 加 速 方法 是 工作 负载 采样 ， 在 这 种 方法 中 ， 模 拟 线程 只 对 目标 机 
上 的 部 分 工作 负载 执行 过 程 进行 模拟 ， 整 体 性 能 指标 由 运行 样本 的 测量 值 推测 得 出 ， 为 了 使 结 
果 具 有 可 信和 度 ， 样 本 的 模拟 运行 必须 可 以 代表 整个 工作 负载 的 执行 。 

在 最 简单 、 最 原始 的 工作 负载 采样 形式 中 ， 我 们 根据 设计 人 员 所 提供 的 模拟 时 间 限 制 ， 只 
模拟 固定 数量 的 指令 。 比 如 ， 假 设 模拟 器 每 分 钟 可 以 模拟 目标 系统 结构 下 的 100 万 条 指令 ， 那 
么 设计 人 员 就 可 以 在 大 约 17 小 时 内 模拟 10 亿 条 指令 。 如 果 整 个 基准 测试 程序 有 100 亿 条 指 
令 ， 那么 一 个 简单 的 策略 是 只 模拟 整 准 测试 程序 的 前 10 亿 条 指令 ， 因 为 只 采样 所 有 指令 的 
10% ,模拟 时 间 加 速 了 近 10 倍 。 如 果 在 样本 运行 期 间 ， 发 生 了 1000 万 次 的 cache 失效 ， 则 设 
计 人 员 可 以 推测 出 ， 整 个 基准 测试 程序 在 其 执行 过 程 中 将 会 发 生 1 亿 次 cache 失效 ， 这 是 假设 
在 采样 窗口 内 外 ，cache 失效 率 始终 保持 一 致 ， 换 名 话说 ,样本 运行 时 的 cache 失效 率 可 以 代表 
整个 基准 测试 程序 的 cache 失效 率 ， 当 然 ， 这 只 是 一 种 理想 状态 下 的 情况 。 

大 多 数 基准 测试 程序 将 它们 最 初 的 执行 时 间 花 费 在 读 取 输 入 并 转换 成 便于 计算 的 格式 这 一 
过 程 上 。 例 如 ， 读 取 一 组 数值 来 填充 内 存 中 的 一 个 矩阵 ， 因 此 ， 在 上 面 提 到 的 这 种 原始 的 采样 
方法 中 ， 如 果 目 标 是 测量 CPU 和 内 存 系统 的 性 能 ， 最 好 是 要 跳 过 程序 的 初始 执行 阶段 ， 因 此 ， 
对 上 面 采样 方法 的 一 个 简单 改进 是 跳 过 初始 设置 阶段 。 根 据 设 计 人 员 对 基准 测试 程序 的 了 解 ， 
每 个 基准 测试 程序 需要 跳 过 的 指令 数 都 可 能 不 同 。 注 意 这 种 做 法 存在 一 个 明显 的 假设 ， 即 在 跳 
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过 指令 后 可 以 重建 系统 状态 ， 换 名 话说， 如 果 设 计 人 员 选 择 跳 过 前 1 亿 条 指令 ， 在 跳 过 这 些 指 
令 后 ,应 该 可 以 生成 对 应 的 寄存 器 状态 和 内 存 状态 。 大 多 数 模拟 器 都 支持 两 种 模式 的 操作 : 功 
能 模拟 模式 和 详细 微 架 构 模 拟 模式 。 功 能 模拟 模式 只 在 每 条 指令 执行 后 ， 跟 踪 记 录 系 统 架 构 状 
态 的 转变 ， 它 并 不 模拟 微 架 构 状 态 ， 因 此 ， 功 能 模拟 模式 比 详细 模拟 模式 运行 速度 快 得 多 。 在 
详细 模拟 模式 中 ， 整 个 系统 微 架构 的 状态 都 被 模拟 ,包括 跟踪 指令 依赖 关系 、 模 拟 指令 乱 序 执 
行 过 程 、 模 拟 cache 和 分 支 预测 等 。 为 了 跳 过 基准 测试 程序 的 最 初 阶段 ， 可 以 先 开 启 快速 的 功 
能 模拟 模式 ， 然 后 切换 到 速度 较 慢 的 详细 微 架构 模拟 模式 下 对 样本 进行 模拟 。 

上 述 原始 采样 方法 存在 的 一 个 问题 : 样本 运行 结果 也 许 并 不 能 够 精确 反映 整个 基准 测试 程 
序 的 行为 ， 这 是 因为 样本 的 选择 存在 随意 性 ， 一 些 与 度量 标准 相关 的 、 研 究 人 员 最 感 兴趣 的 执 
行事 件 可 能 发 生 在 采样 窗口 外 ， 从 而 导致 不 准确 的 结论 。 


9. 6. 1 基于 采样 的 微 架 构 模 拟 


相 比 于 简单 的 随意 采样 方法 ， 样 本 的 质量 和 模拟 结果 的 准确 性 可 以 通过 基于 推论 统计 学 的 
系统 随机 采样 得 以 改善 。 除 了 计算 机 体系 结构 领域 外 ， 随 机 采样 还 广泛 应 用 于 其 他 诸多 领域 ， 
这 是 因为 随机 采样 的 偏差 小 ， 由 采样 引起 的 误差 可 以 通过 统计 参数 (如 置信 级 别 和 误差 范围 ) 
进行 量化 。 系 统 随机 采样 是 一 种 选择 样本 的 方法 ， 在 这 种 方法 中 ， 所 有 被 选择 的 样本 之 间 是 等 
距 的 ,也 称 为 均匀 采样 。 换 名 话说 ,采样 间隔 在 整个 程序 执行 过 程 中 是 等 距 的 ， 与 任意 选择 一 
个 连续 的 样本 相 比 ， 这 种 方法 可 以 更 大 程度 地 捕获 整个 基准 测试 程序 的 行为 。 例 如 ， 从 一 个 运 
行 100 亿 条 指令 的 程序 中 选择 1000 个 样本 ,每 个 样本 由 100 万 条 指令 组 成 ， 那么 将 在 每 1000 
万 条 指令 后 抽取 一 个 样本 。 基 于 采样 的 微 架 构 模 拟 器 (如 SMARTS) 的 目标 是 : 在 程序 整个 执 
行 过 程 中 来 选择 样本 的 数量 和 每 个 样本 的 规模 ， 以 满足 选择 度量 标准 所 需 的 置信 区 间 。 

SMARTS 先 从 功能 模式 开始 ， 到 达 第 一 个 采样 点 后 ， 切 换 到 详细 模拟 模式 对 样本 区 间 进 行 
模拟 。 样 本 区 间 模 拟 完 后 ， 在 到 达 下 一 个 采样 模拟 点 之 前 ， 它 将 再 次 切换 回 功能 模式 。 从 已 有 
的 经 验 来 看 ，SMARTS 建议 在 每 个 采样 窗口 使 用 1000 条 指令 。 模 拟 要 达到 的 置信 区 间 可 以 根 
据 所 关注 指标 的 方差 进行 估计 ,并 通过 对 采样 速率 进行 调节 来 达到 给 定 的 置信 区 间 。 比 如 ， 假 
定 CPI 是 关注 的 指标 ，SMARTS 通过 执行 第 一 个 1000 条 指令 来 测量 采样 窗口 中 的 CEE 方 差 ， 据 
此 决定 需要 选取 多 少 个 样本 来 达到 用 户 指定 的 置信 区 间 。 

微 架 构 模 拟 的 一 个 问题 是 ， 处 理 器 中 的 一 些 结构 比较 庞大 复杂 ， 并 且 这 些 结构 状态 的 保持 
对 我 们 所 关注 的 指标 有 显著 影响 ， 因 此 ， 当 使 用 均匀 采样 抽取 只 有 1000 条 指令 的 采样 窗口 时 ， 
如 果 在 每 个 采样 窗口 开始 时 ， 这 些微 架构 状态 没有 被 正确 地 设置 , 那么 测量 出 来 的 性 能 指标 往 
往 是 不 准确 的 。 例 如 ， 在 采样 窗口 期 间 ， 分 支 预测 的 准确 性 会 影响 CEI， 而 分 支 预测 的 准确 性 
取决 于 在 采样 窗口 开始 前 预测 结构 如 何 捕获 分 支 历 史 ， 由 于 分 支 预测 器 有 大 量 的 状态 ， 在 只 有 
1000 条 指令 的 采样 窗口 中 ， 期 望 预测 器 状态 被 完整 填充 这 是 不 现实 的 ， 实 际 上 ， 这 些 大 型 结 


构 需要 再 多 几 个 数量 级 的 指令 才能 够 完成 状态 的 准确 填充 。 和 分 支 预测 结构 类 似 ，cache 结构 


也 有 类 似 的 问题 。 不 过 ， 处 理 器 中 的 小 型 缓冲 区 (如 重 排序 缓冲 区 ) 可 能 不 需要 预先 填充 ， 
因为 这 些 结构 非常 小 ， 即 使 在 采样 窗口 中 对 其 状态 进行 填充 也 不 会 引入 太 大 的 误差 。 因 此 ， 系 
统 性 的 采样 方法 不 能 完全 依赖 于 功能 模拟 和 详细 模拟 之 间 的 切换 ， 那 些 包含 大 量 状态 的 系统 微 
架构 缓冲 区 必须 在 每 个 样本 前 的 预 热 窗口 中 进行 模拟 ， 在 预 热 模式 下 ,小 型 的 微 架构 缓冲 区 不 
需要 进行 模拟 ， 从 而 提高 了 模拟 速度 。 

预 热 的 概念 为 采样 方法 带 来 了 一 个 新 的 参数 ， 即 预 热 窗口 长 度 。 理 想 情况 下 ， 预 热 窗口 长 
度 取决 于 每 个 具体 的 微 架构 结构 的 大 小 。 对 分 支 预测 器 来 说 ， 其 预 热 窗口 的 大 小 可 能 是 上 万 其 
至 更 多 的 指令 序列 ; 对 cache 来 说 ， 它 包含 更 多 的 微 架 构 状 态 , 预 热 可 能 需要 上 百 万 条 指令 ; 
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对 较 大 的 最 后 一 级 cache 来 说 ， 甚 至 可 能 有 必要 执行 整个 基准 测试 程序 来 预 热 cache。 设 计 人 员 
必须 对 准确 性 和 模拟 速度 进行 权衡 来 选取 合适 的 预 热 参数 。SMARTS 建议 采用 两 级 预 热 ， 先 用 
50 万 条 指令 对 cache 进行 预 热 ， 紧 接着 使 用 4000 条 指令 对 其 他 微 架 构 部 件 进 行 详 细 预 热 ， 预 
热 完成 后 进入 1000 条 指令 对 应 的 采样 窗口 ， 在 采样 窗口 中 完成 对 性 能 指标 的 实际 测量 。 


9.6.2 SimPoint 


男 一 种 用 于 选取 采样 窗口 的 方法 是 基于 程序 特征 的 。 在 一 个 典型 的 计算 机 体系 结构 模拟 
“中 ,很 多 情况 下 都 是 以 相同 的 输入 设置 、 不 同 的 目标 系统 结构 配置 反复 地 运行 大 量 的 基准 测试 
程序 。 每 个 基准 测试 程序 的 执行 期 间 可 以 看 成 是 执行 一 组 基本 块 ， 且 基本 块 的 执行 模式 往往 是 
频繁 重复 的 。 因 此 ， 可 以 将 整个 程序 的 执行 归纳 为 几 个 阶段 ， 在 执行 过 程 中 ， 各 阶段 重复 执行 
的 次 数 是 不 同 的 。 基于 各 阶段 重复 执行 的 次 数 ， 可 以 将 整个 程序 的 执行 进行 聚 类 ， 并 识别 出 执 
行 过 程 中 占 主导 地 位 的 关键 阶段 ， 可 以 选取 单个 的 关键 阶段 或 一 组 最 主要 的 关键 阶段 作为 样 
本 。 同 其 他 采样 方法 一 样 ，SimPoint 也 先 通过 功能 模拟 的 方式 快速 推进 到 关键 阶段 ， 然 后 切换 
到 详细 模拟 模式 对 关键 阶段 进行 模拟 。 

SimPoint 是 基于 阶段 分 析 来 加 速 模拟 的 最 流行 工具 ， 阶 段 的 识别 和 聚 类 是 通过 使 用 基本 块 
向 量 来 实现 的 。 在 SimPoint 中 ， 程 序 的 每 个 基本 块 有 一 个 独特 的 标识 符 或 基本 块 号 ， 程 序 执行 
被 分 割 为 1 亿 条 指令 的 窗口 ， 每 个 窗口 中 基本 抉 被 执行 的 次 数 被 记录 在 称 为 基本 块 向 量 
(BBV) 的 结构 中 ,程序 中 的 每 个 基本 块 都 在 BBV 中 有 对 应 项 。BBV 并 不 是 精确 地 捕获 每 个 基 
本 块 的 执行 顺序 ， 而 是 统计 这 1 亿 条 指令 窗口 中 每 个 基本 块 总 的 执行 次 数 。 第 一 步 是 识别 BBV 
之 间 的 相似 之 处 ， 在 极端 情况 下 ， 如 果 在 两 个 对 应 窗口 中 ,每 个 基本 块 的 执行 计数 都 是 相同 
的 ， 则 相应 的 两 个 BBV 是 相同 的 。 然 而 ， 事 实 上 很 少 有 多 个 BBV 的 计数 恰好 相同 ， 因 此 两 个 
向 量 之 间 的 相似 度 可 以 使 用 欧 氏 距离 或 曼哈顿 距离 进行 度量 ， 一 且 BBV 之 间 的 相似 度 被 计算 出 
来 ， 下 一 步 就 是 将 每 个 BBV 分 类 到 个 类 簇 中 ， 这 可 以 通过 著名 的 k-means 聚 类 方法 来 实现 。 

k-means 聚 类 方法 使 用 一 个 两 阶段 的 迭代 过 程 来 实现 BBV 的 聚 类 : 第 一 步 ， 随 机 选取 个 
点 作为 每 个 聚 类 的 中 心 ， 然 后 计算 每 个 BBV 到 不 同 聚 类 中 心 的 距离 ， 并 将 该 BBV 放置 到 距离 
最 近 的 那个 聚 类 中 ; 第 二 步 ， 根 据 第 一 步 的 划分 计算 新 的 聚 类 中 心 ， 再 重新 计算 每 个 BBV 到 
新 的 聚 类 中 心 的 距离 ， 一 些 BBV 可 能 会 重新 分 配 到 不 同 的 聚 类 中 。 这 是 一 个 迭代 的 过 程 ， 当 
没有 BBV 重新 分 配 时 ， 和 迭代 停止 。 

当 所 有 BBV 育 类 到 个 类 簇 后 ， 可 以 在 每 个 类 簇 中 选取 一 个 BBV 来 代表 整个 类 得， 因此 
可 以 只 模拟 每 个 类 簇 中 选取 的 BBV 窗口 (每 个 BBV 窗口 有 1 亿 条 指令 ) 来 代表 整个 程序 的 执 
行 ， 被 选中 的 窗口 或 阶段 称 为 SimPoint。 在 极端 情况 下 ， 可 以 选择 到 程序 中 所 有 BBV 的 欧 氏 距 
离 或 曼哈顿 距离 最 近 的 一 个 BBV， 这 种 选择 导致 只 需要 进行 单个 SimPoint 的 模拟 。 不 同 于 SM- 
ARTS，SimPoint 中 的 每 个 阶段 都 执行 1 亿 条 指令 ， 因 此 ， 即 使 阶段 模拟 开始 时 的 微 架 构 缓冲 区 
都 是 空 的 ， 这 些 缓冲 区 结构 也 可 以 在 阶段 开始 后 很 快 达到 稳定 状态 ， 因 此 也 没有 必要 像 SMAR- 
TS 方法 中 那样 对 系统 微 架 构 部 件 进行 预 热 。 


9.7 工作 负载 特征 刻画 


工作 负载 特征 刻画 的 目的 是 多 方面 的 : 首先 ， 它 帮助 研究 人 员 理解 运行 在 当前 或 未 来 机 器 
上 的 一 组 程序 的 性 能 瓶颈 ; 其 次 ， 它 为 开发 那些 用 来 描述 工作 负载 的 综合 基准 测试 程序 提供 关 
键 信息 ; 最 后 一 点 但 同样 重要 的 是 ， 当 工作 负载 增加 时 ， 基 于 工作 负载 特征 刻画 可 以 推测 出 其 
在 现 有 或 未 来 机 器 上 的 行为 。 在 最 后 那 种 情况 下 ， 工作 负载 特征 刻画 是 另 一 种 加 速 模 拟 的 方 
式 ， 这 种 加 速 是 通过 减少 工作 负载 的 大 小 和 预测 更 大 工作 负载 的 行为 来 实现 的 。 
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9.7.1 理解 性 能 瓶颈 


工作 负载 特征 刻画 的 核心 目标 是 ， 描 述 工 作 负载 是 如 何 与 底层 目标 架构 进行 交互 的 。 工 作 
负载 特征 刻画 可 以 使 设计 人 员 充 分 理解 有 哪些 系统 微 架 构 特 征 可 以 提高 或 阻碍 工作 负载 的 性 
能 ,如 果 工 作 负 载 足 够 重要 ， 那么 在 某 个 微 架 构 上 的 工作 负载 特征 刻画 可 以 帮助 设计 人 员 对 未 
来 的 微 架构 作出 决策 。 例 如 ， 工 作 负 载 在 执行 过 程 中 遇 到 过 多 的 TLB 失效 ， 则 未 来 的 设计 可 能 
会 增加 TLB 的 容量 ， 从 而 缓解 由 于 TLB 失效 而 引发 的 性 能 损失 。 除 此 之 外 ， 工 作 负 载 特征 刻 
画 也 能 够 帮助 软件 开发 人 员 理解 如 何 重 写 代 码 ， 以 避免 一 些 潜在 的 性 能 损失 。 工 作 负 载 特征 刻 
画 可 以 通过 在 当前 的 真实 物理 系统 上 设置 和 运行 工作 负载 来 完成 ， 当 工作 负载 运行 在 当前 系统 
上 ， 可 以 通过 硬件 计数 器 来 收集 指令 执行 信息 和 微 架 构 行 为 统计 数据 。 当 然 ， 工 作 负 载 特征 刻 
画 也 可 以 在 模拟 的 未 来 系统 上 得 以 实现 ， 并 且 模拟 的 方法 为 工作 负载 和 目标 系统 之 间 的 微 架 构 
交互 提供 了 更 多 的 可 见 性 。 

VTune 是 现 有 的 性 能 分 析 工 具 代 表 ， 它 是 商业 软件 ， 主 要 针对 Intel 架构 上 的 软件 进行 性 能 
分 析 ， 它 可 以 分 析 运 行 在 本 地 硬件 上 (包括 0S 在 内 ) 的 任何 程序 ， 也 包括 运行 在 多 处 理 器 上 
的 多 线程 程序 ， 并 且 这 些 程序 都 不 需要 重新 编译 源 代 码 。 这 种 工具 在 分 析 复杂 多 线程 服务 器 程 
序 时 特别 有 用 ， 因 为 多 线程 服务 器 程序 由 于 缺乏 源 代 码 ， 既 无 法 做 代码 插 桩 ， 也 无 法 重 编译 。 
当 程 序 在 物理 机 器 士 执行 时 ， 这 些 工具 可 以 通过 租 入 在 处 理 器 中 的 事件 计数 器 来 监测 大 量 性 能 
或 代码 的 执行 属性 。 例 如 ，VTune 可 以 在 给 定 的 时 钟 周期 内 ， 收 集 程序 计数 器 的 取 指 次 数 、 退 
出 指令 的 条 数 、cache 失效 次 数 、 分 支 预测 错误 次 数 、 总 线 访问 次 数 ， 以 及 总 线 冲 突 次 数 等 。 
VTune 定期 中 断 执行 ， 例 如 每 百 万 条 指令 中 断 一 次 (指令 个 数 可 以 通过 测量 退出 指令 得 到 )， 
然后 它 在 每 个 中 断 点 处 ， 对 指令 计数 器 和 一 些 事件 计数 器 的 值 (如 时 钟 周 期 数 或 指令 数 ) 进 
行 记录 。 在 程序 执行 结束 时 ，VTune 将 这 些 对 样本 数据 点 的 跟踪 记录 用 于 工作 负载 特征 刻画 。 
在 最 简单 的 情况 下 ，VTune 可 以 估计 出 执行 工作 负载 过 程 中 不 同类 型 指令 的 相对 出 现 频率 ;而 
更 加 细致 全 面 的 特征 刻画 则 可 以 区 分 出 不 同 的 分 支 指令 类 型 ， 并 给 出 不 同 分 支 指 令 下 的 分 支 预 
测 准确 性 。 


9. 7.2 合成 基准 测试 程序 


工作 负载 特征 刻画 还 有 助 于 合成 新 的 基准 测试 程序 。 一 个 简单 的 例子 是 收集 在 复杂 工作 负 
载 上 执行 的 指令 混合 信息 ， 这 一 信息 可 以 用 来 创建 同 初始 工作 负载 具有 相似 指令 特征 的 合成 基 
准 测试 程序 。 这 个 合成 基准 测试 程序 不 需要 初始 工作 负载 那样 的 复杂 设置 ， 就 可 以 用 来 模拟 未 
来 的 目标 设计 。 当 工作 负载 的 设置 难度 较 大 时 ， 这 种 方法 就 特别 有 用 ， 比 如 ， 针 对 TPC-C 这 样 
的 具有 复杂 工作 负载 的 事务 处 理 基 准 测试 程序 。 需 要 注意 的 是 ， 具 有 相似 指令 混合 特征 的 合成 
基准 测试 程序 可 能 无 法 展现 服务 器 工作 负载 中 的 复杂 系统 级 交互 ， 因 此 ， 它 的 使 用 场合 可 能 比 
较 有 限 ， 而 且 通过 合成 基准 测试 程序 所 得 结果 的 可 信和 度 也 经 常 受到 质疑 。 


9.7.3 预测 工作 负载 行为 


工作 负载 特征 刻画 的 另 一 个 重要 应 用 是 ， 当 工作 负载 规模 增 大 时 ， 或 工作 负载 迁移 到 未 来 
不 同 的 目标 系统 上 时 ， 工 作 负 载 特征 刻画 可 以 用 来 理解 工作 负载 的 不 同行 为 。 通 常 ， 用 于 产品 
环境 下 的 商业 工作 负载 对 硬件 和 软件 的 要 求 极 高 ， 这 种 情况 下 的 配置 被 称 为 扩展 设置 〈scaled 
setup) ， 系 统 供应 商 往往 通过 扩展 设置 来 展示 系统 的 最 佳 性 能 ， 比 如 ， 展 示 全 世界 最 快 的 事务 
处 理 吞 吐 能 力 。 这 种 设置 需要 使 用 大 量 的 磁盘 、PB 级 别 的 内 存 ， 以 及 成 千 上 万 的 处 理 器 ， 通 
过 每 个 处 理 器 的 性 能 计数 器 来 将 其 调节 到 最 佳 性 能 。 这 种 设置 下 的 资源 需求 太 大 ， 无 法 通过 模 
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拟 环境 实现 ， 因 此 ， 通 过 这 种 设置 来 探索 新 的 系统 微 架 构 的 想法 是 不 切实 际 的 。 事 实 上 ， 对 于 
很 多 的 商业 工作 负载 ， 当 其 运行 在 全 工作 模式 下 时 ,研究 人 员 和 设计 人 员 是 无 法 对 其 工作 负载 
行为 进行 分 析 的 。 不 同 于 CPU 密集 的 基准 测试 组 件 ( 如 SPEC)， 商 业 工 作 负 载 (如 TPC-C) 
通常 难以 配置 ， 这 有 多 方面 的 原因 : 首先 ， 商 业 工作 负载 需要 仔细 调节 大 量 的 配置 参数 ， 例 
如 , 在 TPC-C 的 设置 过 程 中 ， 为 各 种 数据 库 处 理 所 分 配 的 内 存 数量 , 或 者 磁盘 数据 分 区 方法 ， 
都 可 能 会 对 整体 性 能 产生 明显 影响 ; 其次， 商业 工作 负载 中 的 源 代 码 通常 无 法 获取 ， 这 进一步 
增加 了 设置 的 复杂 性 ; 最 后 ， 过 高 的 软 硬 件 成 本 也 使 得 扩展 设置 难以 实现 。 

研究 人 员 通 常 将 这 些 复 杂 的 工作 负载 限定 在 一 个 较 小 的 设置 中 ， 称 为 缓存 设置 。 缓 存 设置 
通过 减少 各 方面 所 需 的 资源 以 获得 更 低 的 复杂 度 ， 通 过 限制 负载 只 在 少数 几 个 处 理 器 上 运行 ， 
并 限制 内 存 或 V0 需求， 可 以 减少 硬件 的 成 本 开销 。 现 实 中 ; 随 着 工作 负载 的 减少 , 硬件 资源 
的 需求 也 显著 降低 。 通 过 缓存 设置 ， 原 来 需要 运行 一 个 包含 100 万 用 户 的 数据 库 ， 现 在 可 能 只 
需要 运行 包含 10 万 个 用 户 的 数据 库 。 虽 然 缓存 设置 仍然 还 是 比较 困难 ， 但 由 于 它 只 用 了 少量 
的 系统 存储 和 磁盘 ， 因 此 配置 已 经 相对 容易 很 多 。 和 实际 产品 环境 相 比 ， 在 研究 或 设计 时 期 所 
采用 的 工作 负载 大 小 和 典型 TPC-C 设置 所 对 应 的 资源 需求 可 能 有 多 达 3 个 数量 级 的 差距 。 

工作 负载 特征 刻画 可 以 弥补 缓存 设置 和 扩展 设置 之 间 的 差距 ， 特 征 刻 画 可 以 对 缓存 设置 下 
的 运行 结果 进行 分 析 ， 并 预测 工作 负载 在 扩展 设置 下 的 潜在 性 能 。 这 种 特征 刻画 将 有 助 于 我 们 
理解 基于 模拟 的 设计 决定 在 真实 产品 环境 下 将 表现 出 什么 样 的 性 能 。 因 此 ， 工 作 负 载 特征 刻画 
的 首要 目标 就 是 理解 在 缓存 设置 和 扩展 设置 下 系统 行为 的 差异 ， 并 发 掘 能 够 刻画 商业 工作 负载 
在 不 同 配置 下 性 能 的 潜在 关系 。 


习题 
9.1 我 们 使 用 主流 模拟 器 来 完成 一 些 设计 评价 研究 。SimpleScalar 是 一 组 模拟 器 套件 ， 它 可 以 在 不 同 细 

节 层 次 上 对 机 器 进行 模拟 (相关 资料 见 http:Mwww. simplescalar com ) : sim- cache 是 一 个 简单 的 

cache 模拟 器 ， 当 输入 一 系列 cache 设计 指标 时 ， 它 可 以 测量 cache 的 命中 和 未 命中 的 次 数 ; sim- 

outorder 是 最 详细 的 模拟 器 ， 它 可 以 对 具有 动态 调度 、 分 支 预测 、 推 测 执行 以 及 cache 等 配置 的 超标 

量 处 理 器 进行 逐 拍 模拟 。 下 面 ， 我 们 将 使 用 SimpleScalar 专门 为 教学 而 提供 的 基准 测试 程序 (详细 

资料 见 http ;Vwww. eecs. umich. edu/ ~ taustin/eecs573Vpublic/instructprogs. tar. gz) 。 根 据 可 用 的 计算 

资源 ， 你 可 以 运行 该 基准 套件 中 任意 数量 的 基准 测试 程序 。 

(a) 使 用 sim-cache 来 模拟 以 下 4 种 cache 配置 方案 。 配 置 一 : Ll 指令 和 数据 cache 独立 ， 各 为 
4KB ， 采 用 直接 映射 ，cache 块 大 小 为 32B; 配置 二 ; Ll 指令 和 数据 cache 独立 ， 各 为 4KB， 
采用 二 路 组 相 联 映射 ，cache 块 大 小 为 32B; 配置 三 : Ll 指令 和 数据 cache 独立 ， 各 为 16KB， 
采用 直接 映射 ，cache 块 大 小 为 32B; 配置 四 : Ll 指令 和 数据 cache 独立 ， 各 为 16KB， 采用 四 
路 组 相 联 映射 ，cache 块 大 小 为 32B。 请 分 析 Ll cache 相 联 度 对 cache 失效 率 的 影响 ， 并 分 析 
L1 cache 大 小 和 相 联 度 是 如 何 相互 影 响 cache 失效 率 的 。 

(b) 使 用 工具 Cacti ( 它 可 以 对 任意 数据 存储 结构 的 访问 时 间 和 功 耗 进行 评估 ， 例 如 ROB 和 cache 
结构 等 ) ，Cacti 的 输入 是 cache 大 小 、 相 联 度 以 及 生产 工艺 。 读 者 可 以 自己 下 载 Cacti, 或 者 使 
用 网 页 版 的 功 耗 /面积 评估 器 (http:AHwww. hpl. hp. com/research/cacti)。 使 用 Cacti 分 别 计算 问 
题 (a) 中 4 种 cache 配置 方案 下 的 延迟 和 功 耗 ， 使 用 130nm 工艺 ，cache 配置 为 4 个 端口 和 一 
个 bank。 假 设 功 耗 是 最 重要 的 设计 因素 ， 且 已 知 L1 失效 率 每 提高 1% ， 相 应 的 处 理 器 功 耗 也 
提高 1% 。 功 耗 的 提高 是 由 于 cache 失效 时 ， 需 要 通过 一 个 复杂 的 cache 失效 处 理 逻 辑 进 行 处 
理 ， 且 必须 到 下 一 级 存储 层次 中 读 取 失效 的 数据 。 请 对 比 Cacti 测量 得 到 的 4 种 cache 配置 下 
的 功 耗 值 ， 再 将 其 与 cache 失效 率 变 化 引起 的 功 耗 值 进行 对 比 ， 选 出 哪 种 cache 设计 最 有 利于 
降低 整体 功 耗 。 
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(c) 使 用 sim-outorder 模拟 器 来 研究 乱 序 处 理 器 的 设计 空间 。 首 先 ， 使 用 下 面 的 参数 来 创建 一 个 基 


(d 


Wd, 


线 配置 文件 ， 指 定好 一 些 关键 结构 的 大 小 和 延迟 ，RUU 和 cache 的 延迟 在 这 里 没有 给 出 ,我 

们 需要 通过 Cacti 来 获取 这 些 延 迟 的 估计 值 。 

考虑 一 个 基线 处 理 器 具有 如 下 的 配置 参数 (未 指定 的 参数 都 使 用 默认 值 ) ; 

e 4 项 取 指 队列 。 | 

。 两 级 PAp 分 支 预测 器 ， 每 项 分 支 历 史 占 4bit。 

128 项 历史 表 。 

2048 项 预测 表 。 

512 项 、128 组 、 四 路 组 相 联 的 分 支 目 标 缓冲 区 (BTB ) 。 

8 项 返回 地 址 栈 (RAS) 。 

每 周期 最 多 发 射 4 条 指令 。 

每 周期 最 多 译 码 4 条 指令 。 

每 周期 最 多 提交 4 条 指令 。 

64 项 寄存 器 更 新 单元 (RUU)。 

32 项 load/store 队列 。 

3 个 整形 ALU。 

1 个 整形 乘法 器 /除法 器 单元 。 

1 个 浮 点 ALU。 

1 个 浮 点 乘法 器 /除法 器 单元 。 

32B cache 块 。 

16KB 四 路 组 相 联 ，L1l 指令 cache，LRU 替换 算法 。 

16KB 四 路 组 相 联 ，LIl 数据 cache，LRU 替换 算法 。 

512KB 八路 组 相 联 ， 指 令 和 数据 共用 的 L2 cache，LRU 替换 算法 。 

4 个 内 存 端口 。 

首次 主 存 访问 延迟 为 100 个 时 钟 周期 ， 后 续 访 问 延迟 为 30 个 时 钟 周期 。 

。 100 个 时 钟 周期 的 TLB 延迟 。 

使 用 Cacti 来 评估 LI 和 IL2 cache 的 访问 延迟 ， 以 RUU 的 访问 延迟 为 单位 。 

步骤 1: 使 用 Cacti 来 计算 RUU 的 访问 时 间 ， 假 设 RUU 的 更 新 在 关键 路 径 上 ， 并且 处 理 器 的 
运行 频率 取决 于 该 延迟 。 

步骤 2: 使 用 Cacti 来 估计 cache 的 访问 时 间 ， 需 将 该 访问 时 间 转 化 为 处 理 器 的 时 钟 周期 数 。 例 
如 ， 获 得 RUU 的 访问 时 间 为 Ins，L1 数据 cache (DL1) 的 访问 时 间 为 10ns， 则 DL1 
的 延迟 为 10 个 时 钟 周 期 ,使 用 130nm 的 生产 工艺 ,设置 端口 数 为 4，bank 数 为 1。 

步骤 3: 使 用 Cacti 估计 的 RUU 和 cache 延迟 来 完成 基线 配置 文件 。 

步骤 4: 完成 配置 文件 后 ， 对 基线 处 理 器 的 配置 进行 模拟 ， 模 拟 基 线 配 置 过 程 中 需要 使 用 本 题 
开始 时 给 出 的 SimpleScalar 网 站 上 提供 的 两 个 基准 测试 程序 。 

探索 机 器 宽度 如 何 影响 超标 量 动态 调度 处 理 器 的 性 能 ， 在 配置 文件 中 改变 机 器 的 宽度 〈 取 指 / 

译 码 /发 射 / 提 交 的 宽度 ) 。 为 了 探索 设计 空间 ， 需 要 使 用 以 下 的 发 射 宽度 : 每 个 时 钟 周期 发 射 

1、2、4、8 条 指令 ， 需 要 注意 的 是 ， 即 使 是 这 个 简单 的 设计 空间 探索 过 程 中 ， 每 改变 一 个 设 

计 人 参数， 也 需要 针对 每 个 基准 测试 程序 模拟 运行 4 次， 从 这 个 例子 我 们 也 可 以 对 设计 空间 探 

索 所 需 的 计算 复杂 度 有 个 直观 的 感受 。 

步骤 1: 生成 结果 ， 并 绘图 分 析 以 给 出 你 对 设计 空间 探索 的 理解 。 

步骤 2: 绘制 出 MIPS 和 机 器 宽度 关系 的 曲线 图 。 观 察 各 种 评估 指标 ， 如 各 种 缓冲 区 的 占用 
( 取 指 队列 ，RUU，load/store 队列 ) 、 分 支 指令 的 动态 出 现 频率 、cache 命中 率 等 ， 并 
给 出 这 些 曲线 的 相应 解释 。 要 获得 MIPS 值 ， 你 需要 知道 处 理 器 的 运行 频率 ， 该 频率 
可 以 通过 RUU 的 访 存 时 间 来 确定 。 
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9.2 


9.3 





在 9.2.3 节 中 ,给 出 了 基于 ATOM 的 伪 代 码 ， 使 用 直接 执行 的 方式 完成 cache 模拟 。 在 本 题 中 ， 需 
要 设计 一 个 基于 PIN 的 直接 执行 工具 来 模拟 未 来 的 cache 设计 。 首 先 ， 需 要 下 载 PIN 工具 组 件 (下 
载 网 址 : http:Vwww. pintool, org/) ，PIN 可 以 在 任何 运行 Windows 、Linux 或 Mac 系统 的 x86 笔记 本 / 
台式 机 上 运行 ， 安 装 完 成 后 ， 阅 读 下 载 包 中 附带 的 插 桩 和 使 用 指南 。 

(a) PIN 有 一 个 用 于 cache 模拟 的 简单 例子 ， 称 为 pinatrace， 其 代码 包含 在 下 载 组 件 中 ， 也 可 以 在 
PIN 网 站 上 的 示例 介绍 区 域 找到 《网 址 : http:/www. pintool. org/ docs/41150/Pin/html/)。pi- 
natrace 提供 了 如 何 使 用 BIN 来 收集 内 存 引 用 trace 的 基本 知识 ， 每 个 trace 记录 的 格式 是 《内 存 
指令 PC， 读 / 写 类 型 ， 存 储 访问 的 虚 地 址 )。 开 始 trace 收集 之 前 ， 前 1 亿 次 内 存 引用 将 被 跳 
过 ， 然 后 将 接 下 来 的 1000 万 个 trace 记录 保存 到 指定 的 输出 文件 中 。 你 可 以 运行 所 选择 的 任何 
程序 ， 如 果 有 许可 (license)， 可 以 在 www. spec. 6rg 上 下 载 一 组 用 来 对 计算 机 体系 结构 评估 的 
基准 测试 程序 ， 若 无 法 下 载 ， 也 可 以 运行 任何 桌面 程序 ， 例 如 Microsoft Office 组 件 或 GCC。 需 
要 注意 的 是 ， 无论 选择 哪个 程序 运行 ， 确 保 你 已 经 正确 设 定好 终止 trace 收集 的 条 件 ， 否 则 ， 
可 能 会 产生 大 量 的 trace 文件 ， 并 对 你 的 计算 机 文件 系统 造成 破坏 。 

(b) 将 trace 输出 文件 输入 到 问题 (a) 中 用 到 的 cache 模拟 器 中 ， 用 trace 文件 重 做 上 题 。 

(e) 使 用 SMARTS 采样 方法 收集 一 个 新 的 trace， 重 写 PIN 的 插 桩 代码 ， 使 之 跳 过 前 1000 万 条 指 

令 ， 并 收集 接 下 来 的 2000 次 内 存 访问 。 重 复 这 个 过 程 ， 直 到 程序 终止 或 收集 到 的 trace 记录 的 

数目 超过 1000 万 ,现在 将 这 个 新 trace 输出 文件 输入 到 cache 模拟 器 ， 重 做 问题 (a) 。 请 分 析 

在 SMARTS 样本 和 之 前 trace 样本 集 上 观察 统计 到 的 cache 命中 /未 命中 的 变化 情况 。 

现 将 cache 模拟 器 直接 集成 到 BIN 工具 组 件 中 ， 通 过 修改 PIN 中 的 trace 收集 代码 ， 直 接 将 

load/store 指令 中 的 访问 地 址 输入 到 cache 模拟 器 ， 而 不 是 收集 大 量 的 trace 文件 ， 即 使 用 cache 

模拟 器 的 功能 调用 来 替换 将 trace 记录 收集 到 文件 的 功能 。 使 用 这 种 方法 ， 不 需要 收集 trace 记 

录 ， 因 此 运行 基准 测试 程序 时 不 需要 担心 trace 文件 的 大 小 ， 分 别 使 用 问题 (a) 中 的 简单 样 

本 和 问题 (e) 中 SMARTS 样本 运行 全 部 基准 测试 程序 ， 观 察 比较 cache 命中 /未 命中 率 的 相关 

情况 。 

9-6 和 图 9-7 的 量子 模拟 和 松弛 模拟 展示 了 松弛 模拟 如 何在 量子 模拟 的 基础 上 进一步 提高 性 能 。 

假设 量子 是 3 个 时 钟 周期 ， 而 松弛 度 是 4 个 时 钟 周期 ， 假 定 在 一 个 4 核 CMP 宿主 机 上 模拟 一 个 4 

核 目 标 CMP， 请 问 在 什么 情况 下 ， 量 子 模拟 和 松弛 模拟 的 加 速效 果 是 相同 的 ? 
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深入 理解 计算 机 系统 ( 原 书 第 3 版 ) 


作者 : [ 美 ] 兰 德尔 E. 布 莱 恩 特 等 译 者 :， 袭 奕 利 等 书号 ; 978-7-111-54493_7 定价 :' 139.00 元 


理解 计算 机 系统 首选 书目 ，10 余 万 程序 员 的 共同 选择 
卡 内 基 - 梅 隆 大 学 、 北 京 大 学 、 清 华 大 学 、 上 海 交通 大 学 等 国内 外 众多 知名 高 校 选用 指定 教材 
从 程序 员 视角 全 面 剖 桥 的 实现 细节 ， 使 读者 深刻 理解 程序 的 行为 ， 将 所 有 计算 机 系统 的 相关 知识 融会 鞭 通 
新 版 本 全 面 基于 X86-64 位 处 理 器 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 通过 这 门 课程 的 学 习 
建立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 
程序 的 能 力 ， 黄 定 了 后 续 学 习 操 作 系统 、 编 译 、 计 算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 
值得 推荐 采用 的 好 教材 。 本 书 第 3 版 采用 最 新 x86-64 架 构 来 贯穿 各 部 分 知识 。 我 相信 ， 该 书 的 出 版 将 有 助 于 国内 计算 机 
系统 教学 的 进一步 改进 ， 为 培养 从 事 系统 级 创新 的 计算 机 人 才 黄 定 很 好 的 基础 。 

一 一 梅 宏 。 中国 科学 院 院士 /发 展 中 国家 科学 院 院士 


以 低 年 级 开设 “深入 理解 计算 机 系统 ”课程 为 基础 ， 我 先后 在 复旦 大 学 和 上 海 交通 大 学 软件 学 院 主导 了 激进 的 教 

学 改革 …… 现 在 我 课题 组 的 青年 教师 全 部 是 首 批 经 历 此 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 从 事 系 统 软件 的 研究 
打下 了 良好 的 基础 …… 师 资 力 量 的 补充 又 为 推进 更 加 激进 的 教学 改革 创造 了 条 件 。 

一 一 减 斌 宇 - 上 海 交 通 大 学 软件 学 院 院 长 
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计算 机 组 成 与 设计 : 硬件 /软件 接口 ( 原 书 第 5 版 ) 


作者 : [ 美 ] 戴 维 A. 帕 特 森 等 ISBN: 978-7-111-50482-5 定价 : 99.00 元 


本 书 是 计算 机 组 成 与 设计 的 经 典 畅销 教材 ， 第 5 版 经 过 全 面 更 新 ， 关 注 后 PC 时 代 发 生 在 计算 机 体系 结构 领域 的 革 
命 性 变革 一 一 从 单 核 处 理 器 到 多 核 微 处 理 器 ， 从 串 行 到 并 行 。 本 书 特别 关注 移动 计算 和 云 计算 ， 通 过 平板 电脑 、 云 体 
系 结构 以 及 ARM (移动 计算 设备 ) 和 x86 〈 云 计算 ) 体系 结构 来 探索 和 揭示 这 场 技 术 变 革 。 


计算 机 体系 结构 :量化 研究 方法 ( 英文 版 -第 5 版 ) 


作者 ，[ 美 ] John L. Hennessy 等 ISBN: 978-7-111-36458-0 定价 ， 138.00 元 


本 书 系统 地 介绍 了 计算 机 系统 的 设计 基础 、 指 令 集 系统 结构 ， 流 水 线 和 指令 集 并 行 技 术 。 层 次 化 存储 系统 与 存储 
设备 。 互 连 网 络 以 及 多 处 理 器 系统 等 重要 内 容 。 在 这 个 最 新 版 中 ， 作 者 更 新 了 单 核 处 理 器 到 多 核 处 理 器 的 历史 发 展 过 
程 的 相关 内 容 ， 同 时 依然 使 用 他 们 广 受 好 评 的 “量化 研究 方法 ”进行 计算 设计 ， 并 展示 了 多 种 可 以 实现 并 行 ， 陛 的 技 
术 ， 而 这 些 技术 可 以 看 成 是 展现 多 处 理 器 体系 结构 威力 的 关键 ! 在 介绍 多 处 理 器 时 ， 作 者 不 但 讲解 了 处 理 器 的 性 能 ， 还 
介绍 了 有 关 的 设计 要 素 ， 包 括 能 力 、 可 靠 性 、 可 用 性 和 可 信 性 。 





人 嵌入 式 计 算 系统 设计 原理 ( 原 书 第 3 版 ) 


作者 ; 玛 里 琳 。 沃 尔 夫 译 者 ; 李 仁 发 等 ISBN: 978-7-111-44075-8 定价 : 69.00 元 


本 书 从 组 件 技术 的 视角 出 发 ， 讲 述 了 髓 入 式 计算 的 基本 原理 和 技术 。 全 书 每 一 章 涵盖 一 个 专题 ， 包 括 与 嵌 人 
式 系统 设计 相关 的 若干 主要 内 容 : 指令 系统 、CPU、 计 算 平 台 、 程序 设 计 与 分 析 、 进 程 和 操作 系统 、 系 统 设计 技 
术 以 及 多 处 理 器 和 网 络 等 。 

本 书 内 容 丰富 ， 文 字 通 俗 流 畅 ， 讲 述 深入 浅 出 ， 配 合 了 丰富 的 设计 示例 与 编程 示例 ， 使 得 读者 在 进行 理论 学 
习 的 同时 ， 能 够 较 容易 地 联系 实际 ， 加 深 对 嵌入 式 计 算 设计 思想 的 理解 ， 并 获得 先进 的 技术 实践 指导 。 


嵌入 式 系 统 导论 : CPS 方 法 


作者 : Edward Ashford Lee 等 译 者 ; 李 实 英 等 ISBN: 978-7-111-36021-6 定价 ， 55.00 元 


本 书 是 一 本 关于 CPS (信息 物理 系统 ) 的 著作 。 不 同 于 大 多 数 典 入 式 系统 的 书籍 着 重 于 计算 机 技术 在 嵌入 式 系 
统 中 的 应 用 ， 本 书 的 重点 是 论述 系统 模型 与 系统 实现 的 关系 ， 以 及 软件 和 硬件 与 物理 环境 的 相互 作用 。 

全 书 从 CPS 的 视角 ， 围 绕 系统 的 建 模 、 设 计 和 分 析 三 方面 ， 深 入 浅 出 地 介绍 了 设计 和 实现 CPS 的 整体 过 程 及 各 
个 阶段 的 细节 。 


软 /硬件 协同 设计 .( 原 书 第 2 版 ) 


作者 : 帕特里克 R. 肖 蒙 译 者 : 王 奕 等 ISBN: 978-7-111-52018-4 定价 ; 89.00 元 


本 书 介绍 如 何 将 自 定义 硬件 集成 到 软件 的 嵌入 式 系统 设计 中 ， 阅 释 了 如 何 解决 计算 机 工程 中 的 关键 问题 : 伐 
入 式 系统 设计 者 如 何平 衡 设 计 的 灵活 性 和 高 效 性 。 本 书 内 容 覆 盖 了 软 /硬件 协同 设计 的 4 个 主题 :- 基础 概念 、 自 定 
义 体系 结构 的 设计 空间 、 软 /硬件 接口 和 应 用 实例 ， 此 外 还 介绍 了 设计 环境 ， 以 便 帮 助 读者 开展 软 / 硬 件 协同 设计 
实验 。 本 书包 括 基于 Xilinx 和 Altera 现 代 FPGA 环 境 的 实验 与 示例 ， 这 使 得 本 书 的 内 容 适 用 于 很 多 使 用 这 些 工 具 的 
课程 。 





并 行 计算 机 组 成 与 设计 
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书 中 没有 上 蜂 涩 抽象 的 技巧 以 及 使 人 手足 无 措 的 大 量 数据 ， 而 是 以 完整 且 易 于 
含 片上 多 处 理 器 等 紧 跟 工业 发 展 前沿 的 内 容 ， 最 后 一 章 量化 评估 更 是 点 睛 之 笔 
一 一 Mikko Lipasti， 威 斯 康 星 大 学 麦迪 逊 分 校 
这 本 书 不 仅 可 以 帮助 你 清晰 理解 并 行 系统 的 原理 ， 而 且 对 于 并 行 系统 设计 者 来 说 也 是 不 可 多 得 的 好 书 
一 一 陈云 雳 ， 中 国 科 学 院 计 算 技术 研究 所 
并 行 体系 结构 是 计算 机 系统 获得 高 性 能 和 高 效率 的 关键 ， 与 此 同时 ， 并 行 编程 困难 和 设计 瓶 颈 也 带 来 了 重 


重 挑战 。 这 一 领域 的 知识 较为 艰深 ， 技 术 更 新 迅速 ， 因 此 ， 教 育 界 、 学 术 界 和 企业 界 都 在 渴望 一 本 综合 性 强 、 
权威 性 高 但 又 浅显 易 读 的 书 ， 无 疑 ， 本 书 将 是 最 佳 选 择 。 


教学 的 方式 组 织 成 章 ， 并 且 包 


本 书 特色 


。 清晰 简明 ， 易 于 入 门 。 从 处 理 器 基础 知识 到 内 存 结构 再 到 片上 多 处 理 器 架构 ， 作 者 都 和 E 用 易 懂 的 描述 和 
恰当 的 例子 来 阐释 复杂 概念 ;而且 ， 书 中 并 没有 将 传统 单 核 体系 结构 的 知识 完全 略 去 ， 因 而 初学 者 也 可 
轻松 上 阵 、 步 步 迈 进 。 

e 各 章 独立 ， 内 容 完 备 。 无 需 通读 全 书 便 可 快速 学 习 某 一 章 的 主题 ， eddie 在 展开 技术 
层面 的 深入 讨论 时 ， 更 加 关注 复杂 性 、 功 耗 和 可 靠 性 等 与 时 俱 进 的 重要 设计 因素 ， 是 其 他 教科 书 鲜 
有 触及 的 。 

e 掌握 工具 ， 实 践 创新 。 系 统 讲解 了 实际 应 用 中 的 并 行 系统 ， 且 专门 用 一 章 的 篇 幅 来 介绍 量化 评估 工具 ; 
在 充分 了 解 现 有 系统 及 其 限制 因素 的 基础 上 ， 特 别 鼓 励 读 者 思考 并 实现 自己 的 设计 ， 以 达到 实践 和 创新 
的 高 阶 学 习 目标 。 
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